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本 书 对 机 器 视觉 进行 了 全 面 且 通 俗 易 懂 的 讲解 。 提 供 了 所 有 必需 的 理论 工具 ， 并 且说 明 如 
何 应 用 到 实际 的 图 像 处 理 与 机 器 视觉 系统 中 。 每 章 包 含 了 许多 编程 作业 ， 使 读者 能 深入 了 解 开 
发 实用 的 图 像 处 理 算 法 的 内 幕 。 

本 书 从 回顾 数学 原理 开始 ， 然 后 讨论 图 像 处 理 中 的 关键 问题 ， 还 讨论 了 机 器 视觉 的 一 些 重 
要 应 用 ， 其 中 包括 目标 的 自动 检测 。 本 书 强调 了 两 个 命题 : 一 致 性 (解决 机 器 视觉 问题 的 一 个 
主要 理论 架构 ) 与 优化 (用 来 实现 这 些 方法 的 数学 工具 ) 。 

本 书 所 附 光 盘 包括 书 中 使 用 的 软件 、 数 据 及 图 像 。 
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本 书 对 机 器 视觉 进行 了 全 面 且 通 俗 易 懂 的 讲解 ， 是 一 本 从 实用 角度 出 发 介绍 机 器 视 
觉 理论 与 应 用 的 教材 。 本 书 从 介绍 数学 原理 开始 ， 然 后 讨论 图 像 处 理 中 的 关键 问题 ， 如 
图 像 的 描述 与 品质 、 边 缘 检 测 、 特 征 提取 、 分 割 、 纹 理 与 形状 等 。 讨 论 的 内 容 还 包括 图 
像 匹配 、 统 计 模 式 识别 、 句 法 模式 识别 、 聚 类 、 传 播 、 自 适应 轮 廊 、 参 数 变换 以 及 一 致 
性 标号 。 本 书 还 介绍 机 器 视觉 的 一 些 重要 应 用 ， 其 中 包括 目标 的 自动 检测 等 。 

本 书 所 附 光盘 包括 书 中 使 用 的 软件 与 数据 。 本 书 可 作为 电机 工程 、 计 算 机 科学 与 数 
学 等 专业 研究 生 的 教材 ， 也 可 供 技 术 人 员 参 考 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 礁 断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰 出 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 黑 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 共 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 金 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 议 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum ，Stroustrup ，Kernighan ， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
帘 及 废 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 A 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 
“全 美 经 典 学 习 指 导 系 列 ”"。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 *， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 








的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语 言 设 计 者 之 手 、 有 的 历经 三 十 年 而 不 训 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 人 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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机 器 视觉 又 常 称 计算 机 视觉 ， 这 门 学 科 的 发 生 与 发 展 已 有 几 十 年 的 历史 ， 它 是 一 门 研究 
通过 图 像 或 视频 数据 观察 周围 世界 的 学 科 ， 主 要 以 摄像 机 拍摄 的 图 像 或 视频 为 原始 数据 ， 提 
取出 在 图 像 或 视频 中 能 观察 到 的 事物 。 这 个 学 科 要 解决 的 问题 ， 与 人 类 通过 眼睛 观察 世界 的 
视觉 感知 功能 十 分 相似 。 称 机 器 视觉 是 强调 用 机 器 构成 的 系统 来 处 理 视觉 问题 ， 而 称 计算 机 
视觉 则 强调 处 理 视觉 的 问题 是 一 个 计算 问题 ， 核 心 部 件 是 计算 功能 强大 的 计算 机 。 

随 着 信息 时 代 的 到 来 ， 用 计算 机 处 理 各 种 信息 的 需求 越 来 越 多 。 多 媒体 信息 处 理 技术 已 
成 为 日 常生 活 各 领域 的 迫切 需要 ， 而 人 们 就 更 希望 能 用 计算 机 技术 来 处 理 视觉 问题 ， 例 如 利 
用 人 脸 、 虹 膜 、 指 纹 等 识别 技术 来 处 理 与 个 人 有 关 的 一 切 事务 。 利 用 自动 识别 技术 帮助 家 人， 
利用 视觉 自动 监控 系统 监视 环境 中 发 生 的 非常 事件 ， 如 陌生 人 的 侵入 、 老 年 人 的 异常 行动 等 。 
再 如 智能 交通 管理 系统 、 视 频 检索 、 用 于 军事 目的 的 自动 目标 检测 等 ， 都 需要 应 用 机 器 视觉 
技术 来 解决 问题 。 正 如 视觉 是 人 类 在 自然 环境 与 社会 环境 中 生存 不 可 缺少 的 最 重要 感知 器 官 ， 
机 器 视觉 技术 也 是 信息 技术 中 的 一 门 不 可 少 的 技术 ， 因 此 它 成 为 计算 机 学 科 中 不 可 或 缺 的 一 
门 学 科 。 

但 是 如 何 编写 好 一 本 机 器 视觉 教科 书 却 并 不 容易 ， 这 是 由 这 门 学 科 本 身 的 特点 所 决定 的 。 

几 十 年 来 ， 计 算 机 视觉 的 研究 吸引 了 多 个 学 科学 者 与 研究 人 员 的 目光 ， 计 算 机 视觉 的 研 
究 已 深入 到 许多 不 同 的 应 用 领域 ， 例 如 字符 识别 、 人 脸 识 别 、 指 纹 识 别 等 在 基本 原理 与 实施 
细节 上 都 形成 了 独特 的 算法 体系 ， 每 个 领域 都 有 数量 极 大 的 参考 文献 。 显 然 要 对 每 一 个 都 作 
详细 介绍 ， 并 要 让 读者 理解 ， 在 篇 幅 上 是 不 可 能 的 ， 对 初学 者 来 说 也 是 不 必要 的 。 

为 了 使 这 本 书 既 能 作为 相关 学 科研 究 生 与 本 科 高 年 级 学 生 学 习 机 器 视觉 基础 知识 的 教科 
书 ， 并 且 又 能 作为 有 关 专 业 人 员 自 学 机 器 视觉 基本 概念 的 参考 书 ， 作 者 将 本 书 组 织 成 基础 与 
专题 两 个 部 分 。 基 础 部 分 是 本 书 的 重点 ， 讲 述 每 一 章 命题 的 基本 概念 以 及 基本 处 理 方法 ， 如 
图 像 处 理 、 模 式 识别 、 线 性 代数 、 概 率 论 等 基础 知识 。 学 生 们 可 以 对 机 器 视觉 的 基本 概念 及 
基本 处 理 方法 有 一 个 全 面 的 了 解 与 掌握 。 本 书 作者 还 十 分 重视 对 学 生 通 过 实际 动手 培养 基本 
能 力 ， 因 而 专门 设计 了 一 章 讲解 图 像 的 一 些 基本 操作 ， 并 要 求 读 者 能 从 底层 的 图 像 处 理 程序 
写 起 ， 以 便 真 正 掌握 算法 的 实质 。 因 此 这 本 书 是 一 本 适合 高 年 级 本 科 生 与 研究 生 学 习 机 器 视 
觉 的 教科 书 ， 也 是 工程 师 与 其 他 学 科 的 研究 人 员 学 习 机 器 视觉 的 入门 参考 书 。 

但 是 一 旦 读者 在 掌握 了 机 器 视觉 的 基础 知识 后 ， 往 往 需 要 深入 到 机 器 视觉 的 某 个 应 用 领 
域 中 去 ， 因 此 本 书 作者 在 每 一 章 都 安排 了 专题 。 在 专题 中 讨论 一 些 较 深入 的 概念 以 及 有 代表 
性 的 观点 ， 并 附 有 丰富 的 参考 文献 目录 。 这 样 一 来 ， 读 者 就 可 以 方便 地 深入 到 感 兴趣 的 领域 
中 去 了 。 

此 外 ， 本 书 作者 从 始 至 终 都 强调 两 个 命题 ， 一 个 是 一 致 性 检测 ， 另 一 个 是 求 优 化 解 。 对 
前 一 个 命题 ， 作 者 把 它 看 作 解 决 机 器 视觉 问题 的 基本 哲理 ， 这 一 点 的 确 非 常 重要 。 当 人 们 观 
察 一 幅 数 字 图 像 时 ， 孤 立地 观察 每 一 个 像素 ， 或 一 个 仅 包含 几 个 像素 的 小 区 域 ， 是 看 不 出 图 
像 中 有 什么 东西 的 ， 而 只 有 在 审视 了 像素 及 其 邻 域 中 灰 度 (或 颜色 ) 值 的 分 布 特点 才能 发 现 
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有 价值 的 东西 。 例 如 ， 图 像 中 有 一 条 直线 ， 若 孤立 地 观察 线 上 的 每 一 点 ， 并 不 能 得 出 有 一 条 
直线 的 结论 ， 而 如 果 把 这 些 点 联系 起 来 观察 ， 就 会 发 现 有 一 条 直线 存在 。 这 些 点 为 什么 组 成 
一 条 直线 呢 ? 这 是 因为 这 些 点 具有 一 个 公共 的 特点 ， 它 们 都 符合 某 一 直线 方程 的 条 件 ， 这 就 
是 它们 之 间 存 在 的 一 致 性 。 这 个 例子 表明 ， 仅 从 局 部 信息 来 看 是 看 不 出 图 像 中 有 什么 内 容 ， 
只 有 从 全 局 性 角度 去 观察 才能 发 现 图 像 中 究竟 包含 了 什么 。 然 而 ， 图 像 处 理 的 一 些 基本 算 子 
(如 边缘 算 子 、 平 滑 算 子 等 ) 都 只 能 在 局 部 进行 计算 ， 无 法 在 大 面积 范围 内 直接 进行 计算 是 机 
器 视觉 计算 的 要 害 ， 耐 一致 性 检测 是 机 器 视觉 中 从 局 部 计算 到 全 局 性 计算 的 主要 哲理 ， 这 点 
对 理解 机 器 视觉 的 基本 处 理 方法 是 极其 关键 的 。 至 于 求 优 化 解 是 机 器 视觉 计算 求解 的 基本 数 
学 工具 ， 还 拿 检测 直线 的 例子 来 说 吧 ! 在 图 像 中 一 条 直线 是 由 若干 点 组 成 的 ， 由 于 这 些 点 是 
通过 边缘 检测 算 子 算出 来 的 ， 这 些 点 的 位 置 往往 不 十 分 准确 ， 因 此 严格 地 说 这 些 点 并 不 构成 
一 条 理想 的 直线 ， 它 可 以 用 几 条 不 同 的 直线 来 近似 。 那 么 究竟 用 哪 一 条 直线 来 近似 呢 ? 这 就 
是 要 找 一 个 “最 优 ” 的 直线 的 问题 。 要 用 一 句 话 来 概括 机 器 视觉 的 话 ， 就 是 从 带 噪声 的 数据 
中 求解 ， 这 种 解 可 以 是 识别 一 个 字符 ， 检 测 出 一 张 人 脸 ， 跟 踪 了 一 个 物体 的 运动 等 等 。 由 于 
数据 往往 是 不 完整 的 ， 是 混杂 在 一 起 的 (一 个 场景 往往 是 多 种 物体 的 组 合 )， 带 有 很 强 的 噪声 ， 
因此 往往 没有 解析 解 ， 没 有 唯一 解 ， 需 要 从 多 个 可 能 的 解 中 找到 最 优 解 ， 求 最 优 解 是 机 器 视 
觉 中 最 常用 的 数学 工具 。 

我 们 在 翻译 此 书 的 过 程 中 体会 到 这 本 书 与 其 他 一 些 机 器 视觉 (或 计算 机 视觉 ) 的 著作 有 
明显 不 同 ， 它 的 注意 力 并 不 放 在 介绍 计算 机 视觉 的 最 新 成 果 上 ， 而 在 于 把 学 习 机 器 视觉 最 需 
要 、 最 基本 的 概念 与 处 理 方法 有 条 有 理 地 组 织 起 来 ， 有 利于 学 生 与 初学 者 尽快 地 掌握 最 基本 
的 内 容 。 而 专题 部 分 又 可 以 作为 读者 学 习 更 深入 知识 的 桥梁 。 

电 于 翻译 时 间 偏 短 ， 有 些 部 分 我 们 理解 得 不 一 定 正确 ， 用 语 也 不 够 准确 ， 译 文中 难免 会 
出 现 这 样 那样 的 错误 与 不 当 之 处 ， 敬 请 读者 们 原谅 ， 并 欢迎 指正 。 











致 教师 


本 书 是 讲解 计算 机 识别 景物 中 物体 的 教材 ， 分 基础 内 容 与 专题 两 个 部 分 ， 可 作为 教材 与 
教学 参考 书 。 儿 乎 所 有 的 章 都 有 基础 部 分 ， 可 以 作为 教材 ， 按 教学 法 组 织 的 ， 而 专题 部 分 包 
含 大 量 有 关 新 近 发 表 的 文章 的 参考 文献 ， 可 以 用 作 参 考 。 本 教材 是 面向 电机 与 计算 机 工程 系 、 
计算 机 科学 系 或 数学 系 的 高 年 级 本 科 生 与 研究 生 的 。 

从 第 4 章 到 17 章 的 内 容 包 括 边缘 检测 、 形 状 描述 、 传 播 、 自 适应 轮廓 、 参 数 变 换 、 匹 配 与 
一 致 性 标号 等 有 关 专 题 ， 还 包括 句法 与 统计 模式 识别 ， 以 及 聚 类 等 内 容 。 有 两 个 主题 是 贯穿 
所 有 这 些 章节 的 : 一 致 性 (解决 机 器 视觉 问题 的 一 个 主要 理论 架构 ) 与 优化 〈 用 来 实现 这 些 
方法 的 数学 工具 )。 这 两 个 主题 是 无 所 不 在 的 ， 所 以 在 每 章 的 结尾 都 要 讨论 它们 在 本 章 中 是 如 
何 体现 的 。 第 18 章 介绍 目标 自动 检测 这 一 应 用 问题 ， 结 合 了 前 面 章节 讨论 的 所 有 主题 ， 展 示 
如 何 解决 实际 问题 。 

本 教材 假设 读者 在 线性 代数 与 高 等 微 积 分 方面 具有 良好 的 研究 生 程 度 的 背景 知识 。 成 功 
完成 本 课程 的 学 生 可 以 承担 在 工业 、 医 学 、 与 军用 机 器 视觉 系统 方面 的 设计 任务 。 所 附 的 光 
盘 中 有 作者 开发 的 软件 工具 以 及 图 像 数据 ， 用 来 支持 完成 书 中 作业 。 这 些 软件 可 运行 在 
Windows 或 Linux 操 作 系 统 支持 的 PC 机 、 在 OS-X 下 的 Macintosh 计 算 机 以 及 Solaris 支 持 下 的 
SUN 计 算 机 环境 中 。 软 件 能 够 处 理 任何 一 种 类 型 的 图 像 ， 并 能 将 JPEG 等 格式 的 图 像 转 换 成 
“标准 ”格式 图 像 或 进行 反方 向 转换 。 

尽管 本 书 的 使 用 方式 可 以 多 种 多 样 ， 但 作者 的 主要 设计 目的 是 使 其 作为 机 器 视觉 的 研究 
生 课程 教材 ， 以 及 作为 机 器 视觉 的 参考 书 。 如 果 作 为 教材 ， 希 望 学 生 能 阅读 本 书 每 一 章 的 基 
本 部 分 (本 书 内 容 一 个 学 期 都 学 不 完 )。 下 面 的 表格 是 为 研究 生 程度 的 基础 课程 设计 的 学 习 计 
划 。 

对 学 生 的 作业 与 编程 必须 包括 一 个 正式 的 报告 ， 由 于 作业 中 通常 包含 编程 ， 完 成 作业 的 
时 间 可 以 更 长 些 ， 建 议 使 用 的 时 间 列 在 表格 第 3 列 的 括号 中 。 本 书 也 可 用 于 本 科 高 年 级 学 生 的 
课程 ， 但 听课 的 学 生 与 讲课 内 容 要 仔细 挑选 。 

对 希望 进一步 深造 的 学 生 ， 本 书 的 “专题 ”部 分 可 以 作为 阅读 大 量 文献 的 导 引 。 一 定 要 
对 你 的 学 生 强 调 这 样 一 点 (就 像 我 们 在 本 书 中 所 说 的 )， 即 没有 任何 一 本 教科 书 能 提供 参考 文 
献 中 才能 提供 的 细节 。 而 对 一 个 实际 的 机 器 视觉 项 目 来 说 ， 则 要 求 开 发 工程 师 深 入 研读 出 版 
的 杂志 与 会 议论 文 。 正 如 前 面 所 述 ， 贯 穿 本 书 的 两 个 主题 是 一 致 性 与 优化 。 一 致 性 概念 是 贯 
穿 整 个 学 科 的 ， 作 为 解决 机 器 视觉 问题 的 主要 理论 架构 。 针 对 一 个 机 器 视觉 的 实际 应 用 ， 工 
程 师 需要 进行 搜索 ， 以 便 找到 确定 信息 源 之 间 具 有 一 致 性 的 方法 。 优 化 是 解决 机 器 视觉 问题 
的 主要 数学 工具 ， 包 括 确定 一 致 性 。 在 每 一 章 的 末尾 介绍 完 技术 问题 后 ， 我 们 都 要 提醒 学 生 
在 该 章 何 处 体现 了 一 致 性 原则 ， 以 及 在 何 处 应 用 了 哪 一 种 优化 方法 。 
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课程 安排 举例 
序号 内 容 作业 (花费 周 数 ) 阅读 材料 
1 引言 ， 术 语 ， 对 图 像 的 运算 ， 模 式 分 类 和 计算 机 2.2~2.5 读 第 2 章 ， 并 确认 自己 
视觉 ， 图 像 生 成 ， 分 辩 率 ， 动 态 范围 ， 像 素 2.9(1) 具备 学 习 该 课程 的 基础 
2 作为 函数 的 图 像 ， 图 像 退化 ， 点 扩展 函数 ， 复 原 3.101) 第 1 章 与 第 3 章 
3 图 像 的 特性 ， 等 亮度 线 ， 疹 ， 连 通 性 3.2，4.1(2) 4.1 节 ~4.5 节 
4 核算 子 : 应 用 核 运 算 估 计 边缘 位 置 4.Al, 5.1 节 与 5.2 节 
4.A2(1) 
5 用 双 二 次 函数 拟 合 图 像 ， 用 求 向 量 导 数 的 方法 5.1, 5.2(1) 5.3 节 ~5.4 节 
使 函数 最 小 化 ( 跳 过 六 边 形 像素 ) 
6 Ea EX. Rew, BAR, BST 5.4, 5.5(2), 5.5 节 与 5.6 节 ( 跳 过 5.7 节 ) 
模糊 ， 二 阶 及 高 阶 导数 5.7, 5.8, 
5.9(1) 
7 尺度 空间 简介 ， 讨 论 作业 5.10, 5.110) 5.835 ( 跳 过 5.9 节 ) 
松弛 与 退火 6.1, 6.3(1) 6.1 节 ~6.3 节 
9 扩散 6.2(2) 6A.2 节 
10 MEFA 与 扩散 之 间 的 等 价 性 6.7 556.8(1) 6A.4 节 
11 图 像 数 学 形态 学 7.5~7.7(1) 7.1 节 
12 数学 形态 学 ( 续 )， 灰 度数 学 形态 学 ， 距 离 变 换 7.100) 7.2%, 731 
13 填补 边缘 间隙 ， 连 通 性 7.4(1) 7A.4 节 
14 用 最 佳 阀 值 进行 分 割 8.135, 8.25 
15 连通 分 量 标号 8.2(1) 8.3 节 
16 一 维 几何 ， 变 换 9.3(1) 9.135, 9.24 
17 TEREE PEE ERHET, Ph 9.2, 9.4, 9.3 节 ~9.7 节 
9.10(1) 
18 用 蛇 形 主动 轮廓 与 汽 球 主动 轮廓 进行 分 割 8.555, 8.5.15 
19 偏 微分 方程 表达 与 水 平 集 8.5.2 节 
20 从 X 提 到 形状 与 结构 光照 明 9.10(1) 94.2.2435, 94.2.35 
21 图 论 图 像 表 示 方 法 : 图 ， 区 域 相 邻 图 。 子 图 同 构 第 12 章 
22 一 至 性 与 松弛 标号 10.1(1) 第 10 章 
23 Hough 变 换 ， 参 数 变换 11.1(2) 11.1 节 ，11.2 节 ，11.3.3 节 
24 广义 Hough 变 换 ， 高 斯 映像 ， 电 路 板 上 检测 孔 的 11A.3 节 
应 用 
25 图 匹配 ， 弹 簧 与 模板 ， 关 联 图 13.25513.3(1) 13.1 节 ~13.3 节 
26 统计 模式 识别 的 作用 
致谢 


感谢 我 在 北 卡 罗 来 纳 州立 大 学 的 研究 生 们 ， 尤 其 是 Rajeev Ramanath, ， 没 有 他 的 帮助 , 
就 完成 不 了 这 本 书 。Bilgé Karacali 在 校对 方面 给 了 不 少 帮助 ， 并 且 对 支持 向 量 机 这 一 节 贡 献 
很 大 。 

当然 要 不 是 为 了 我 的 太太 Rosalyn， 所 有 这 些 都 不 重要 了 ， 正 是 她 对 我 的 鼓励 才 使 这 
一 切 得 以 发 生 ， 她 还 不 止 一 次 地 对 整 本 书 进行 编辑 ， 把 原本 工程 化 的 语言 转变 成 标准 的 
XB. 

W. E. Snyder 








我 首先 要 感谢 Wesley Snyder 博 士 邀 请 我 作为 合作 者 ， 我 非常 喜欢 这 种 合作 ， 并 且 从 中 获 
取 了 极其 宝贵 的 经 验 。 


在 最 后 要 交付 这 本 书 时 ， 正 值 我 的 父母 从 中 国 来 探亲 。 为 了 支持 我 完成 最 后 的 工作 ， 他 
们 一 直 陪 伴 我 而 放弃 了 在 城市 里 观光 与 欢度 节假日 ， 我 要 深 深 地 感谢 他 们 。 还 要 感谢 Feiyi， 
给 予 我 永远 的 技术 支持 与 紧张 工作 后 的 宽慰 。 


Hairong Qi 
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第 1 章 sl 5 


The proof is straightforward, and thus omitted. 
Ja- Chen Yn and Uen- Hiang HO 
1.1 本 书 宗旨 

我 们 把 这 本 书写 成 两 个 层次 的 形式 。 主 要 层次 的 内 容 是 入 门 引导 ,但 “入 门 引 导 ” 并 不 
意味 着 “容易 ”或 “简单 "， 或 者 “不 需要 数学 ”"。“ 入 门 引导 ”讨论 的 话题 是 在 理解 深入 的 话 
题 之 前 必须 要 掌握 的 。 

此 外 ， 我 们 还 力求 把 这 本 书写 成 有 用 的 参考 书 。 例 如 当 读 者 需要 实现 一 个 实际 系统 时 ， 
需要 得 到 比 这 本 书 中 所 包含 的 内 容 更 详细 的 资料 时 ， 我 们 能 为 他 提供 恰当 的 参考 资料 ， 使 他 
能 很 顺利 地 研究 下 去 。 

我 们 写 这 本 书 的 风格 ， 力 求 适 合 学 生 的 特点 ， 并 且 具 有 交谈 的 风格 。 

我 们 还 力求 使 这 本 书 有 很 强 的 可 读 性 ， 并 令 人 感到 愉快 。 某 些 词 故意 拼 错 ， 显 然 是 为 了 
增加 幽默 感 ， 某 些 幽默 通过 夸张 或 使 用 双关 语 来 实现 ， 希 望 读 者 能 体谅 我 们 。 

我 们 并 不 打算 在 这 本 书 中 包括 机 器 视觉 的 所 有 话题 。 尤 其 是 涉及 字符 识别 与 人 脸 识 别 的 
几乎 所 有 文章 都 没有 包括 进来 。 这 丝毫 没有 轻视 这 些 十 分 重要 与 十 分 成 功 的 应 用 领域 的 意思 ， 
而 只 是 因为 这 些 文章 具有 很 强 的 针对 性 。 何 况 我 们 是 无 法 在 这 本 书 中 包括 每 一 个 方面 的 。 

有 两 个 命题 在 本 书 中 贯穿 始终 : 一 致 性 与 优化 。 一 致 性 是 一 种 概念 上 的 工具 ， 体 现在 许 
多 算法 中 ， 以 有 利于 机 器 识别 图 像 。 其 融合 从 局 部 度量 中 得 到 的 信息 以 便 获取 有 关 图 像 全 局 
性 的 结论 。 优 化 问题 是 一 种 数学 机 制 ， 它 几乎 在 每 一 章 都 使 用 ， 以 实现 这 些 章节 要 解决 的 问 
题 ， 不 管 是 模式 分 类 或 是 图 像 匹 配 。 

由 于 一 致 性 与 优化 这 两 个 命题 是 如 此 重要 与 无 所 不 在 ， 因 此 在 每 一 章 的 结论 中 我 们 都 要 
给 学 生 指 出 它们 在 本 章 何 处 出 现 。 所 以 读者 有 必要 阅读 每 章 的 结论 ， 也 许 这 里 包含 有 考试 的 
内 容 呢 ! 


12 读者 需 具备 的 预备 知识 


本 书 的 主要 读者 是 : 电机 工程 、 计 算 机 工程 、 计 算 机 科学 、 数 学 、 统 计 学 或 物理 学 专业 
的 研究 生 或 本 科 高 年 级 学 生 。 为 了 学 好 这 本 书 ， 你 必须 学 过 研究 生 的 高 等 微 积分 ， 以 及 统计 
学 或 概率 论 的 课程 。 你 必须 正规 地 上 过 线性 代数 课 或 掌握 这 方面 的 知识 。 

许多 家 庭 作 业 是 编程 作业 ， 要 用 计算 机 来 完成 。 为 了 完成 这 些 作业 需要 的 硬件 与 软件 环 
境 需 具有 如 下 功能 : 

1) 用 C 语 言 处理 大 数组 (256 x 256). 


©  Ja-Chen Lin and Wen-Hsiang Tsai, “Feature-preserving Clustering of 2-D Data for Two-class Problems Using 
Analytical Formulas: An Automatic and Fast Approach," IEEE Transactions on Pattern Analysis and 
Machine Intelligence, 16(5), 1994. 











2) 显示 一 幅 图 像 。 

3) 打印 图 像 。 

随 本 书 附 赠 的 光盘 中 包含 有 你 需要 的 所 有 软件 ， 但 不 包括 编译 器 、 编 辑 器 等 。 

我 们 倾向 于 要 求 读者 自己 编写 程序 ， 特 别 是 从 相对 底层 的 程序 开始 。 某 些 功能 的 程序 在 
Matlab 等 软件 包 中 已 经 有 ， 尽 管 你 通过 调用 这 些 程序 可 以 用 到 一 些 东 西 ， 但 是 可 以 通过 自己 
编写 与 调试 这 些 程 序 而 学 到 更 多 的 知识 。 当 然 ， 如 果 某 些 算法 的 编程 过 于 复杂 ， 以 致 于 妨碍 
了 图 像 分 析 本 身 的 学 习 时 ， 可 以 不 这 样 做 。 为 此 ， 我 们 为 学 生 们 提供 了 子 程序 库 ， 使 得 学 生 
能 忽略 数据 类 型 、 字 节 交 换 、 文 件 存 取 以 及 与 平台 有 关 的 细节 ， 而 集中 精力 于 研究 使 图 像 分 
析 算 法 能 工作 的 逻辑 问题 。 

尽管 你 需要 的 所 有 信息 在 这 本 书 中 都 有 ， 但 是 我 们 建议 学 生 应 该 有 一 个 导师 ， 并 且 到 课 
堂 去 上 课 。 先 预习 一 下 书 中 课文 ， 然后 到 课堂 上 去 ， 之 后 再 读 课 文 。 

请 记 住 : 

A hacker hermit named Dave 

Tapped in to this course in his cave 

He had to admit 

He learned not a bit 

But look at the money he saved 


现在 进入 有 关 技术 的 话题 。 
1.3 一 些 术语 


学 生 们 有 时 对 图 像 处 理 与 机 器 视觉 之 间 的 区 别 搞 不 清楚 ， 在 这 一 一 节 我 们 对 一 些 术语 下 定 
义 ， 以 便 弄 清 这 两 个 学 科 在 内 容 与 目标 上 的 区 别 。 


1.3.1 图 像 处 理 


许多 人 认为 这 本 书 的 内 容 是 图 像 处 理 领域 的 一 部 分 。 然 而 我 们 最 好 从 图 像 处 理 与 机 器 视 
觉 要 解决 的 问题 来 区 分 。“ 图 像 处 理 ” 在 于 要 使 图 像 经 处 理 后 变 得 更 好 ， 图 像 处 理 系 统 的 输出 
仍然 是 一 幅 图 像 ， 而 “机 器 视觉 ”系统 的 输出 却 是 与 图 像 内 容 有 关 的 信息 。 图 像 处 理 系统 的 
功能 包括 增强 、 编 码 、 压 缩 、 复 原 与 重 构 。 

图 像 增强 

图 像 增强 系统 所 执行 操作 的 结果 是 使 人 们 觉得 处 理 后 的 图 像 质量 更 好 。 上 典型 的 操作 运算 
包括 对 比 度 增 强 (如 直方 图 均衡 化 等 功能 )、 亮 度 放 缩 、 边 缘 锐 化 等 。 
图 像 编码 

编码 是 研究 图 像 信 息 的 表达 方式 ， 使 其 更 经 济 与 有 效 ， 这 包括 量化 方法 、 元 余 消 除 。 纺 
码 还 可 能 包括 研究 图 像 信息 的 表达 方式 ， 使 其 在 传输 或 存储 图 像 中 出 现 错误 时 仍 具有 重 棒 性 。 
Hi Af EE HR 

压缩 有 许多 技术 与 编码 中 的 技术 相同 ， 但 其 目的 在 于 减少 存储 与 传输 图 像 的 比特 数量 。 
图 像 复原 , 

复原 关注 的 是 对 图 像 中 的 错误 进行 修复 。 它 与 图 像 增强 不 同 ， 增 强 只 是 关注 使 图 像 看 上 
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去 更 好 些 。 而 要 “修正 ”一 幅 图 像 ， 需 要 有 图 像 退 化 的 模型 。 在 复原 的 应 用 中 常常 假设 有 一 
个 确定 性 的 模糊 操作 ， 并 附 有 添加 性 的 随机 噪声 。 | 
图 像 重 构 | 

重 构 通 常 是 指 从 若干 局 部 图 像 重 构成 一 幅 完整 图 像 的 过 程 。 例 如 ， 在 计算 机 层 析 X 射 线 摄 
像 技术 (CT) 中 从 受 试 者 中 得 到 数量 很 大 (如 360 幅 ) 的 X 射 线 投影 S。 从 这 组 一 维 信号 中 计 
算出 二 维 图 像 中 每 一 点 的 X 射 线 吸收 率 ， 相 同 的 方法 还 用 在 正 电子 放射 层 析 摄像 技术 (PET), 
核磁 共振 图 像 (MRI) ， 以 及 在 某 些 “从 X 恢 复 形状 ”(shape-from-X) 的 算法 中 ， 这 些 将 在 本 
书后 续 章 节 讨论 。 


1.3.2 机 器 视觉 


机 器 视觉 是 机 器 (通常 指数 字 计 算 机 ) 对 图 像 进行 自动 处 理 并 报告 “图 像 中 有 什么 ”的 
过 程 ， 也 就 是 说 它 识 别 图 像 中 的 内 容 。 图 像 中 的 内 容 往往 是 某 些 机 器 零件 ， 而 处 理 的 目标 不 
仅 要 能 对 机 器 零件 定位 ， 还 要 能 对 其 进行 检验 。 我 们 将 在 本 书 中 详细 讨论 一 些 机 器 视觉 的 应 
用 ， 如 自动 目标 识别 (ATR) 和 工业 检验 。 还 有 各 种 各 样 的 应 用 ， 在 时 间 与 书 的 容量 上 都 不 
允许 我 们 涉及 ， 例 如 从 液体 流 的 观察 中 确定 流 的 方程 [1 ，1]。 

对 机 器 视觉 ， 人 们 也 经 常 使 用 术语 “计算 机 视觉 ”与 “图 像 理 解 ”。 

机 器 视觉 由 两 部 分 组 成 : 特征 度量 与 基于 这 些 特征 的 模式 识别 。 
特征 度量 

特征 度量 是 本 书 主要 关注 的 话题 。 在 本 书 中 ， 除 了 第 14 与 15 章 外 ， 我 们 关注 于 对 图 像 的 
TR (像素 ) 进行 处 理 ， 并 从 这 些 像素 以 及 像素 集合 提取 一 组 度量 ， 这 些 度 量 可 以 表示 整 幅 
图 像 或 其 某 些 组 成 的 特点 。 


模式 分 类 

模式 分 类 被 定义 为 ， 对 度量 作出 决策 的 过 程 ， 换 句 话说， 即 给 定 一 个 未 知 物体 的 某 个 度量 
或 一 组 度量 ， 根 据 未 知 物体 属于 哪些 类 的 知识 ， 从 这 些 度量 作出 决策 。 例 如 ， 可 能 的 物体 类 别 
是 男人 与 女人 ， 而 某 种 可 用 来 区 分 男女 的 度量 是 人 体高 度 (显然 ， 高 度 并 不 是 一 个 区 分 男女 的 
好 度量 ， 因 为 如 果 认 为 任何 人 身高 超过 5 尺 6 寸 ， 他 就 是 男人 ， 在 许多 场合 会 出 现 错误 )。 
模式 识别 

模式 识别 可 以 像 模 式 分 类 一 样 定义 为 ， 对 未 知 物体 进行 分 类 ， 但 是 一 般 这 个 术语 包括 产 
生 度量 值 这 个 过 程 。 


1.4 机 器 视觉 系统 的 组 成 


图 1-1 用 图 的 方式 表示 了 一 个 机 器 视觉 系统 在 最 基本 层次 上 的 组 成 。 首 先 对 未 知 物体 进行 
度量 ， 并 确定 一 组 特征 的 度量 值 。 在 工业 应 用 中 ， 这 些 特 征 包 括 被 度量 零件 在 图 像 中 的 长 、 


宽 和 面积 。 一 旦 特征 经 过 度量 后 ， 其 数值 就 被 送 到 一 个 实现 决策 规则 的 过 程 中 去 。 这 种 决策 


规则 一 般 用 一 个 子 程序 实现 。 它 对 度量 值 进 行 计算 ， 并 根据 所 度量 的 值 确定 物体 最 可 能 属于 
的 类 别 。 


日 “有 时 CT 表示 “CAT 扫 描 *， 此 时 CAT 表 示 “computed axial tomography”， 还 有 一 些 其 他 类 型 的 层 析 X 射 线 
报 像 仪 ， 计 算 轴 向 层 析 XX 射线 摄像 仪 。 








4 Fe 


正如 图 1-1 所 示 ， 一 个 机 器 视觉 系统 的 结构 相当 简单 。 然 而 ， 每 个 模块 的 细节 会 相当 复杂 ， 
并 且 对 设计 分 类 器 与 特征 度量 系统 的 不 同 选择 很 多 。 在 本 书 中 ， 我 们 会 讨论 分 类 器 设计 的 问 
题 ， 但 是 确定 特征 与 对 特征 进行 度量 的 过 程 是 本 书 的 主要 话题 。 

“特征 度量 ”模块 可 以 进一步 分 解 成 较 详细 的 操作 ， 如 图 1-2 所 示 。 在 这 个 层次 上 ， 结 构 
流程 会 变 得 更 加 复杂 ， 因 为 要 执行 的 具体 操作 ， 随 图 像 的 类 型 以 及 任务 要 实现 的 目标 变化 而 
变化 。 并 不 是 所 有 的 操作 在 任何 的 应 用 中 都 要 执行 。 





类 别 标识 





图 1-1 机 器 视觉 系统 的 组 成 框图 





图 1-2 特征 度量 系统 的 某 些 组 成 ， 许 多 机 器 视觉 应 用 并 不 使 用 其 中 每 一 模块 ， 
信息 也 常常 以 别 的 方法 流动 。 例 如 ， 可 以 直接 对 图 像 进行 匹配 


1.5 图 像 的 性 质 


在 第 4 章 中 会 更 加 关注 图 像 的 性 质 ， 我 们 会 看 到 有 许多 不 同类 型 的 图 像 以 及 不 同 的 表示 图 
像 的 方式 。 图 像 的 类 型 包括 称 之 为 “图 片 ”(picture) 的 二 维 图 像 。 此 外 ， 还 会 讨论 三 维 的 图 
像 与 距离 图 像 。 我 们 会 考虑 图 像 不 同 的 表示 方法 ， 如 直接 用 图 像 、 函 数 、 线 性 以 及 关系 表示 
的 方式 。 


1.6 图 像 的 操作 分 析 


我 们 会 学 习 许多 对 图 像 进 行 的 不 同 操作 。 本 书 强调 的 是 “图 像 分 析 ”、“ 计 算 机 视觉 ”、 
“机 器 视觉 ”或 “图 像 理解 "。 所 有 这 些 词汇 说 的 是 同一 件 事情 。 我 们 感 兴趣 的 是 对 图 像 进 行 
度量 ， 目 的 在 于 为 机 器 (一般 ， 但 不 限于 计算 机 ) 提供 识别 图 像 中 有 什么 东西 的 能 力 。 这 个 
过 程 包括 几 个 步 又 : 

* 去 噪声 一 -所 有 图 像 都 包含 有 噪声 ， 大 部 分 图 像 都 是 被 模糊 的 ， 有 些 还 有 其 他 畸变 。 我 

们 需要 去 除 或 降低 这 些 畸 变 ， 以 便 能 执行 进一步 的 操作 (运算)。 本 书 第 6 章 与 第 7 章 中 

将 讨论 两 种 去 噪声 的 一 般 方法 。 

* 分 割 一 -需要 把 图 像 分 割 成 有 意义 的 区 域 。 分 割 在 第 8 章 讨 论 。 

* 特征 抽取 一 一 对 分 割 出 来 的 区 域 进行 度量 ， 可 以 是 几何 度量 ， 也 可 以 是 别 的 方式 度量 ， 

这 在 第 9 章 讨论 。 











* 一致 性 一 一 从 局 部 度量 解释 整 幅 图 像 的 内 容 将 在 第 10 章 与 第 11 章 讨论 。 





“分 类 与 匹配 一 一 识别 物体 在 第 12 章 到 第 16 章 讨论 。 
现在 翻 到 下 一 章 (你 有 没有 注意 到 ， 这 章 没 有 作业 ! 不 要 着 急 ， 在 后 续 章 节 就 有 了 .) 
参考 文献 
[1.1] C. Shu and R. Jain, “Vector Field Analysis for Oriented Patterns,” IEEE Transactions 


on Pattern Analysis and Machine Intelligence, 16(9), 1994. 








第 2 章 ”数学 原理 回顾 


Everything, once understood is trivial. 
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2.1 概率 论 简单 回顾 


设想 一 个 统计 学 实验 : 掷 两 个 朋 子 。 两 个 数 加 起 来 可 从 2 到 12， 但 是 正如 大 家 知道 的 ， 某 
些 数目 出 现 的 次 数 要 比 另 一 些 大 。 为 了 说 明 这 一 点 ， 可 以 考虑 得 到 数 5 的 所 有 可 能 情况 。 
从 图 2-1 可 以 看 到 ， 用 两 个 骨 子 得 到 5 可 以 有 4 种 情况 。 每 斤 一 个 山 子 的 事件 是 独立 的 。 也 
RA, BO MAPA “2” WEL (69-21) ZA 5B—-TPREBMHALE. 
事件 的 独立 性 有 重要 的 含意 ， 它 意味 着 两 个 事件 发 生 的 联合 概率 等 于 它们 单独 发 生 的 概 
率 与 条 件 概率 的 乘积 : . 
Pr(alb)P(b)= Pr(a)Pr(b) = Pr(bla)Pr(a) = Pr(a,b) 


X (2-1) 中 符号 a 与 bp 代表 事件 ， 例 如 所 出 一 个 “6”，Pr(b) 是 发 生 这 种 事件 的 概率 ， 
Pr(alb) 是 在 事件 b 发 生 条 件 下 ， 发 生 事件 a 的 概率 。 

在 图 2-1 中 ， 我 们 列 出 拖 两 个 盘子 可 能 出 现 的 所 有 情况 ， 并 显示 了 得 到 从 2 到 12 的 所 有 不 
同方 法 。 可 以 看 到 有 6 种 方法 可 得 到 数目 7， 由 于 这 些 事件 的 每 一 个 都 是 等 概率 的 (36 分 之 1 )， 
那么 ，7 是 拖 两 个 仙 子 最 容易 出 现 的 情况 。 图 2-2 用 图 的 方式 表示 图 2-1 中 包含 的 信息 。 

在 模式 分 类 中 ， 我 们 最 感 兴趣 的 是 出 现 某 种 度量 的 概率 。 然 而 对 一 个 连续 性 函数 要 画 出 
类 似 于 图 2-2 的 图 是 有 问题 的 。 例 如 ,“ 一 个 人 身高 6 尺 的 概率 是 多 少 ? ”这 样 的 问题 是 没有 意 
义 的 ， 显 然 、， 对 这 个 问题 的 回答 是 零 ， 因 为 发 生 的 概率 是 无 穷 小 (“一 个 人 身高 为 
6.314159267 尺 的 可 能 性 是 多 少 ” 是 同样 的 问题 ) 但 是 ， 从 直觉 上 我 们 知道 一 个 人 身高 为 6 尺 
的 可 能 性 ， 要 比 身高 为 10 尺 的 可 能 性 大 。 因 此 需要 有 对 似 然 率 的 直觉 进行 量化 的 方法 。 


(2-1) 















































数字 之 和 得 到 该 数字 
和 的 方法 数 
9 | to 
2 [1-1 1 
3 |2-1,12 12 
4 |1-3, 3-1 2-2 |3 
5 |2-3,3-2,4-1,1-4 [4 
6 |1—5, 5-1, 2-4, 4-2, 3-3 5 "e" 
7_[3-4, 4-3, 2-5, 5-2, 1-6, 6-1| 6 RoHS 
8 2 6, 6-2, 3-5,5-3,4-4  |5 NARS 
9 {3-6, 6-3, 4-5, 5—4 4 m REO 
10 |4 —6, 6—4, 5-5 3 gU 
11 6—5, 5-6 E 01234526789 1011 12 
12 |6-6 1 数字 之 和 








图 2-1 掷 两 个 般 子 的 所 有 可 能 方法 图 2-2 图 2-1 中 信息 用 图 的 方式 表示 
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提问 换 成 以 下 方式 就 有 意义 了 ,“ 一 个 人 身高 低 于 6 尺 的 可 能 性 是 多 少 ? ”这 种 函数 称 为 

对 某 一 度量 z 的 概率 分 布 图 数 : 
P(x) = Pr(z « x) (2-2) 

当 我 们 问 “ 一 个 人 身高 低 于 x 尺 的 概率 是 多 少 ? ”的 问题 时 ， 就 涉及 到 概率 分 布 函数 。 另 
一 个 有 意义 的 提 法 是 “一 个 人 身高 在 xz 与 zf + 如 之 间 的 概率 是 多 少 ? ”对 这 种 问题 可 用 密度 函 
数 的 术语 回答 。 

Pr(x < h<x+Ax)=Pr (h<x+Ax) -Pr (h<x)=P (x+Ax) ~ P(x) 
将 上 式 除 以 Ar， 并 到 极限 A 一 0， 就 可 以 将 概率 密度 函数 定义 为 概率 分 布 函 数 的 导数 : 


P(x) == PG) (2-3) 


[9] HH2-3 LZ BBA I CT A REE SD A eR 





0 1 2 3.4 5 6 7 8 9 10 11 12 x 


图 2-3 与 图 2-2 的 概率 分 布 ， AER TAT RE Tae Roo 注意 
这 个 曲线 在 出 现 可 能 性 大 的 数目 处 较为 陡峭 | 


PORA 所 其 望 的 性 质 。 它 对 连续 值 度量 是 良性 定义 的 ， 并 且 在 直觉 上 感觉 最 可 能 出 现 的 
度量 处 具有 最 大 值 。 
还 要 注意 的 是 : 


oo 


IL =1 (2-4) 


-%0 


这 是 必需 满足 的 ， 因 为 某 些 值 ， 不 管 它 是 哪 一 个 事件 是 一 定 会 出 现 的 。 
2.2 线性 代数 简单 回顾 


在 这 一 节 我 们 要 简要 回顾 向 量 与 矩阵 的 运算 。 一 般 情况 下 ， 向 量 用 粗 体 表示 ， 标量 用 小 | 
SPUESUR, BEOHAUSP UAR. 
TAISGRC FAS Re ROR TCS, SO Sk Se, AREER 
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形式 。 例 如 ， 一 个 包含 三 个 分 量 的 向 量 可 写成 : 
y-c[x x, x] 


两 个 向 量 的 内 积 是 一 个 标量 v = 428。 它 的 值 是 两 个 向 量 相应 元 素 的 乘积 之 和 : 


a b- > a,b, 


有 时 也 用 <x, y> 表 示 内 积 ， 我 们 不 大 喜欢 这 种 表示 ， 因 为 它 看 上 去 与 随机 变量 的 期 望 值 相 


像 有 了 时 也 会 看 到 用 “点 积 ”x c y 表 示 内 积 。 

向 量 的 幅 值 是 1xl= VxTx 。 如 果 Ixl=1; 则 称 其 为 “单位 向 量 *"， 如 果 xTy = 0， 那 么 x 与 y 
“ 正 交 ”。 如 果 x 与 y 是 正 交 单位 向 量 ， 称 其 为 “ 正 交 归 一 ”。 

正 交 性 的 概念 可 以 很 容易 地 扩展 到 连续 函数 的 情况 ， 这 只 需 把 一 个 函数 看 作 无 限 维 的 向 
量 ， 列 举 出 f (x) 随 x 在 a 与 5 范围 内 变化 的 所 有 值 即 可 。 如 果 x 是 连续 的 ， 那 么 x 在 a 与 5 范围 内 可 
能 值 的 数目 会 有 无 穷 多 。 但 这 并 不 构成 问题 ， 虽 然 我 们 不 能 列举 它们 ， 但 我 们 仍然 能 将 它们 
看 成 包含 f (x) 所 有 值 的 向 量 。 此 时 ， 要 将 对 有 限 维 向 量 定义 的 求 和 概念 换 成 积分 ， 则 内 积 可 
写成 ， 

Fa) 8a) = f fa)e(a)dx (2-5) 


正 交 与 正 交 归 一 概念 对 这 种 内 积 定义 仍然 适用 。 如 果 这 个 积分 为 零 ， 则 该 两 个 函数 正 交 。 
所 以 从 正 交 向 量 过 渡 到 正 交 函 数 并 不 是 难题 。 对 于 无 限 维 来 说 ， 当 然 不 能 将 正 交 可 视 化 为 
“ 徘 直 ”， 所 以 要 放弃 把 正 交 想像 成 “垂直 ”的 这 种 做 法 ， 只 需 回顾 这 种 定义 并 使 用 它 。 

设 有 n 个 向 量 xi, xs x; WRAY = a,x, + ax, + … + aux WU RY2Ux, x, c x, 的 线性 组 合 。 


一 组 向 量 x,, x,,…x, 被 称 为 “线性 独立 ”"， 条 件 是 它们 中 任 一 个 不 可 能 写成 其 余 向 量 的 线 ” 


性 组 合 。 
给 定 在 名 "定义 的 4 个 d 维 线性 独立 向 量 x1, x,,…,xs， 那 么 在 该 空间 的 任何 一 个 向 量 y 可 写成 
y = A,X, + aX +` + GX do 
由 于 任何 一 个 4 维 实数 向 量 y 可 以 写成 x1, xy, XARA, WU RRS HE? R, 
并 称 这 些 向 量 “ 支 起 一 个 外 空间 ”。 任 何 一 个 线性 独立 的 向 量 集 都 可 以 用 作 基 集 (符合 必要 充 
分 条 件 )。 通常 正 交 归 一 的 基 集 比较 好 用 。 
例如 ， 下 列 两 个 向 量 形成 一 个 中 ?空间 的 基 : 
x, = [0 1 和 z= (1 oy" 
这 是 一 个 很 熟悉 的 笛 卡 尔 坐 标 系统 。 路 ?的 另 一 个 基 集 是 
zi=[l117 x,-2[-11]T 
AUR, Xp, XEN SA, 7= azi+ ayxy+ …+azts， 那 么 向 量 y 的 “成 分 ”可 由 下 式 确定 
a, = y'x, (2-6) 
而 Qj 是 y 在 x; 上 的 投影 。 从 一 个 简单 的 笛 卡 尔 几 何 角度 看 ， 式 (2-6) 的 内 积 确实 是 一 种 投 
影 ， 正 如 图 2-4 所 示 。 然 而 只 要 用 到 式 (2-6) ,“ 投 影 ”这 个 词 就 可 以 用 ， 甚 至 可 以 在 更 加 一 
般 的 意义 上 用 (例如 ， 傅 里 叶 级 数 的 系数 )。 
这 里 所 讲 的 向 量 空间 中 的 向 量 是 实数 值 的 向 量 。 
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图 2-4 x1 与 2 是正 交 归 一 基 ， 7 到 的 投影 长 度 为 al 


2.2.1 线性 变换 
一 个 “线性 变换 ”4 是 一 个 矩阵 ， 设 4 是 mm x d 的 和 矩阵。 如 果 将 其 用 到 一 个 办 4 的 向 量 x+，y = 
4z， 那 么 JE%"。 于 是 4 从 某 一 个 向 量 空间 咒 4 取 一 个 向 量 ， 在 名 "中 产生 一 个 向 量 。 如 果 向 量 ? 
只 能 由 4 作用 于 狗 “ 中 某 一 个 唯一 的 向 量 产生 ， 则 称 为 “一 对 一 ”的 映像。 假设 多" 中 没有 一 个 
向 量 不 能 由 4 作用 于 路 “中 某 个 向 量 产生 ， 此 时 称 4 为 “上 映 上 ”。 如 果 4 是 一 对 一 映像 及 上映 上 ， 
则 4 的 逆 4- 存 在 。 如 果 两 个 矩阵 4 与 了 的 乘积 是 符合 规则 的 ， 即 C = 4B， 则 称 4 与 B 是 “ 相 适 
应 ”的 。 
有 一 些 (经 常 忘掉 的 ) 重要 特性 : 如 果 4 与 B 相 适应 ， 那 么 
(AB)" = BTAT | (2-7) 
如 果 A4 与 8 都 可 逆 ， 则 还 有 | 
(AB)! = B^! A^ (2-8) 
还 有 一 些 其 他 的 有 用 性 质 : 
det (AB) = det (BA) 和 tr(AB) = tr(BA) 
条 件 是 4 与 也 都 是 方 阵 。 如 果 和 矩阵 4 满足 
AAT = ATA=I (2-9) 
则 矩阵 的 转 置 显然 就 是 它 的 道 ， 而 4 也 称 之 为 “ 正 交 归 一 变换 。 (OT)， 它 在 几何 意义 上 相 


当 于 一 个 旋转 。 如 果 4 是 一 个 d x d 正 交 归 一 矩阵 ， 则 4 的 列 是 正 交 归 一 的 ， 线性 独立 的 ， 并 形 
成 禾 盖 江 “ 空 间 的 一 组 基 。 对 质 ， 三 个 常用 的 OT 是 绕 三 个 和 卡 尔 坐 标 轴 的 旋转 。 | 




















1 0 0 cosÜ0 0 -sin@ cos@ -sin@ 0 
R,-|0 cos6 -sinóü R,=| 0 1 0 R=|sin cos0 0 
0 sin@ cos8 sind 0 cos@ 0 0 1 
如 果 R 是 一 个 OT， 且 有 y = Rx, Hil 
byl=|x| (2-10) 


矩阵 4 是 正定 的 ， 如 果 存 在 
l y=x"Ax>0Yx ER’, x=0 

XAx 称 之 为 二 次 型 。 

二 次 型 的 导数 特别 有 用 : 
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iG =(A+A™)x 


由 于 这 里 提 到 了 求 导数 ， 则 也 可 以 提 提 另外 一 些 有 关 积分 的 运算 : 
设 是 xz 的 标量 国 数 ，xE 馈 ， 那 么 定义 
yl o asy (2-41) 
dx |9x ox, OX4 
并 称 之 为 “梯度 ”。 只 要 我 们 谈 到 图 像 中 的 边缘 ， 而 f(x) 表 示 空 间 二 个 方向 的 亮度 函数 ， 
那么 “梯度 ”会 经 常 提 到 。 
如 果 f 是 xx 的 向 量 函 数 ， 那 么 导数 是 一 个 矩阵 : 


S 归 85 

Ox, Ox, Ox, 
dr e | MA eee (22) 
dx 

Sh 35 Ya 

OX, ox, Ox, 


ZSERE BR AE AT Lt (Jacobian) 矩阵 。 
Hob, wR bs. EN, MAB SBR 














ef wf o2 f 
ax; ax, ax, Ax,0x, 
(2-13) 
i 让 
dx,0x, 9x, dx, ax? 
RARE (Hessian) 矩阵 。 
2.2.2 求 导 运算 
在 此 介绍 另 一 种 表示 ， 即 一 个 只 包含 求 导 运算 的 向 量 : 
T 
v-[- 3... a (2-14) 
ax, ax, ax, 


值得 注意 的 是 ， 它 只 是 一 个 操作 符 ， 不 是 向 量 。 用 它 可 以 进行 线性 代数 一 类 的 事情 ， 但 
它 本 身 并 没有 值 ， 其 至 没有 什么 意义 一 一 它 只 在 被 应 用 时 才 有 意义 。 在 本 书 中 主要 涉及 二 维 
图 像 ， 使 用 运算 符 的 二 维 形式 。 
ð ð 
v-[ »| | (2-15) 


将 其 用 到 一 个 标量 六 就 可 得 到 有 含义 的 向 量 ， 即 /的 梯度 : 
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T 
Vf = Ff of: (2-16) 


与 此 相似 ， 可 以 使 用 内 (点 ) 积 定义 散 度 。( 在 下 述 定义 中 ， 只 采用 在 式 (2-16) 中 定义 
del 运 算 符 的 二 维 形式 ， 但 相同 的 概念 可 以 用 到 任意 维 数 的 运算 中 ): 


wfevre|2 3][^] 36 , 96 2-17) 
divf = Vf E J Ha ( 
同样 可 以 将 del 运 算 符 用 到 与 矩阵 的 外 积 中 : 
2 Hr 
Vxf-|9* (5 fils F n (2-18) 
ay ay y 


2.23 特征 值 与 特征 向 量 


如 果 和 矩阵 4 与 向 量 x 是 相 适 应 的 ， 则 可 以 写 出 “特征 方程 式 ”: 
Ax = Àx, AER (2-19) 


由 于 Ax 是 一 个 线性 运算 ，4 可 以 看 作 将 x 映像 到 它 自身 ， 只 在 长 度 上 有 所 变化 。 满 足 式 
(2-19) 的 “特征 值 ”入 可 以 不 止 一 个 。 对 xER，4 有 且 只 有 d 个 特征 值 (它们 并 不 一 定 不 等 )。 
这 些 值 可 用 det (A — AD) = 0 求解 得 到 。( 但 对 d>2, 我 们 不 推荐 这 种 方法 ， 而 建议 使 用 一 个 数值 
运算 包 来 代替 。) 

给 定 一 个 满足 式 (2-19) 的 特征 值 /， 对 应 的 x 称 为 它 对 应 的 “特征 向 量 ”。 


2.3 函数 最 小 化 简介 


函数 最 小 化 在 工程 问题 中 是 无 所 不 在 的 ， 人 们 经 常设 法 找到 一 组 参数 ， 使 得 这 些 参 
数 的 某 个 函数 值 最 小 。 这 个 问题 可 以 符号 化 地 表示 为 : 找到 向 量 x， 使 某 个 函数 H(x) 达 最 
小 值 : 
H = min, H(x) (2-20) 
其 中 x 是 某 个 d 维 参数 向 量 ， 是 x 的 标量 函数 ， 常 称 为 “目标 函数 ”， 通常 将 能 使 #8 最 小 化 
的 x 表示 为 : 


x=argmin, H(x) (2-21) 
使 函数 最 小 化 的 最 直接 的 方法 是 将 其 导数 设 为 零 : | 
VH(x)=0 (2-22) 


其 中 vv 是 梯度 算 子 一 一 组 偏 导数 ， 式 (2-22) 得 到 一 组 方程 式 ， 每 一 个 对 应 于 x 的 一 个 成 分 。 
它们 必须 同时 满足 : 
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A(x) =0 
Ox, 


9 
ax, 7° 
(2-23) 


2 H(x)=0 
àx, 


这 种 方法 只 有 在 式 (2-23) 有 和 解 时 才 实 用 。 这 只 是 在 d=1 或 H 至 多 是 x 的 二 阶 函数 时 才 有 用 。 


练习 . 
找到 使 式 H = ax + bx, + cx + dL， 最 小 化 的 向 量 x = [xxx] Pa, b, cdg 
ale 
常数 。 
解 
oH = 2ax, +b 
Ox, 
oH = 2cx, 
Ox, 
2H L 2dr, 
Ox; 


fix, 2x20, x, = 之 时 最 小 化 。 
2a 


QRH aT 2ST ARK, MAMA, KFR ARRERA (至少 一 般 
来 说 )， 则 我 们 必须 求助 于 数值 运算 。 其 中 最 常用 的 是 梯度 下 降 。 

在 一 维 时 ， 梯 度 的 用 途 是 显而易见 的 ， 在 某 点 zx (图 2-5) 导数 指向 偏离 最 小 值 方向 。 也 
就 是 说 在 一 维 时 ， 在 斜坡 为 上 坡 时 其 符号 为 正 。 











x? 
图 2-5 导数 的 符号 总 是 指向 偏离 最 小 值 的 方向 
于 是 为 了 找到 一 个 新 的 点 x** 1, 令 


(2-24) 


其 中 a 是 某 个 “小 ”常数 。 
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对 一 个 具有 d 个 变量 的 问题 ， 则 有 
xD 2 x VHX) Lo) (2-25) 


2.3.1 牛顿 - 拉 弗 森 方法 


ER (2-25) 中 如 何 选 a 的 值 并 不 明确 。 如 果 a 值 太 小 ， 式 (2-25) 的 迭代 收敛 过 程 会 太 
K; 如 果 a 值 取得 太 大 ， 算 法 可 能 会 不 稳定 ， 并 且 找 不 到 最 小 值 。 
可 以 考 虚 用 有 名 的 牛顿 - 拉 弗 森 (Newton-Raphson) 求 根 的 方法 估计 a 值 : (在 一 维 情况 
F) AG) 函数 在 x 处 展开 成 泰勒 级 数 ， 并 认为 所 有 高 阶 项 都 为 零 而 截 掉 : 
A(x) = H(x*?) + (xc - x? )n'(xct) 


由 于 期 望 x** 处 的 五 函数 为 零 ， 令 





H(x®) + (x _ x? ux) - 0 (2-26) 
并 且 找 到 x**? 来 估计 这 个 根 ， 要 利用 
(ket) Lo QU) _ H(x) 2-27 
x =x H'(x?) ( ) 


然而 在 优化 问题 中 ， 我 们 并 不 是 要 求 根 ， 而 是 要 使 一 个 函数 值 最 小 化 ， 所 以 怎样 才能 知 
道 求 根 能 帮助 我 们 呢 ? 由 于 函数 值 最 小 化 是 它 导数 的 根 ， 则 算法 变 为 : 





算法 : 梯度 下 降 法 
k+l k H' e 
x! bL T (2-28) 
在 高 维 情况 下 ， 式 (2-28) 变 成 : - 
x) 2 x® _ g- vg (2-29) 
其 中 五 是 二 阶 导 数 的 黑 塞 矩 阵 ， 它 在 本 章 已 提 到 过 ， 即 
9? 
H- | dx dx, no) l (2-30) 
Bil * . 
给 定 一 组 x, y 数 据 对 {(x;, y)} 以 及 一 个 如 下 形式 的 函数 
y =ae™ . (2-31) 
找到 参数 a 与 5， 使 下 式 最 小 化 
H(a,b) = Oo -ae (2-32) 


解 : 通过 观察 In y = Ina + bx， 以 及 让 g =n y5gr = In a, 可 以 使 该 问题 求解 用 线性 方法 解 
决 。 利 用 以 上 替代 式 (2-32) 变 成 : 
H(r,b) = Y -r-bx) (2-33) 


aH 
a e -r—bx,)(-x;) (2-34) 
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= 25 (8 -r-bx,(-1) (2-35) 
AK (2-34) 40, WA 
Ys i- bm- Y bx =0 (2-36) 
或 
Ash DI (2-37) 
AX (2-35) RA 
Da-rYl-by x, =0 (2-38) 
或 
Nr b x, = Vg, (2-39) 


其 中 入 是 数据 点 的 数目 。 式 (2-37) 与 式 (2-39) 是 两 个 联 立 线性 方程 ， 有 两 个 未 知 数 ， 
这 是 很 容易 求解 的 〈[2.2，2.3，2.4] 中 有 更 复杂 的 下 降 算法 ， 如 共 斩 梯 度 法 )。 


2.3.2 局 部 最 小 与 全 局 最 小 


梯度 下 降 法 有 一 个 严重 的 问题 : 它 的 解 强烈 依赖 于 初始 点 。 如 果 在 一 个 “ 谷 ” 中 开始 ， 
它 将 找到 该 谷 的 底 。 但 是 无 法 保证 该 最 小 值 是 最 低 的 或 “全 局 ”最 小 值 。 

在 继续 讨论 之 前 ， 先 区 分 以 下 两 种 非 线性 最 佳 问题 对 我 们 而 言 是 比较 有 益 的 。 

“组 合 最 优 、 在 这 种 情况 中 ， 变 量具 有 离散 值 ， 一 般 为 0 与 1 ， 对 由 d 个 二 值 变量 组 成 的 x， 
存在 2 种 可 能 值 。 那 么 在 原理 上 可 以 通过 产生 x 的 每 一 个 可 能 的 值 ， 以 及 计算 相应 HCx) 
来 选择 最 小 值 。 这 种 “穷尽 搜索 ”一 般 是 不 现实 的 ， 因 为 可 能 的 值 会 按 指数 激增 。 模 拟 
退火 是 一 个 解决 组 合 优化 问题 的 好 方法 。 

* 图像 优化 : 图 像 具 有 一 种 特殊 性 质 : 每 个 像素 只 受 其 邻 域 影响 (这 将 在 后 文中 详细 说 明 ) 
然而 ， 像 素 值 是 连续 值 ， 而 且 会 有 成 千 上 万 个 值 。 而 均值 场 退 火 对 此 类 问题 的 求解 是 最 
合适 的 。 

2.3.3 模拟 退火 
在 后 面 讨 论 的 最 小 化 技术 中 大 部 分 都 以 “模拟 退火 ”(S4) 为 基础 ( 欲 知 更 多 细节 ， 请 参 
看 Aarts 和 Van Laarhoven 的 书 [ 2.1] )。 

算法 : 模拟 退火 

(随机 ) 选择 一 个 x 的 初始 值 ， 以 及 一 个 7 的 初始 值 Z>0， 当 了 >7T， 执 行 以 下 步骤 

1) 产生 一 个 x 的 邻近 点 y (邻近 点 的 确切 定义 接 下 来 会 讨论 )。 

2) 如 果 HG)< H(x)， 则 用 y 代 赫 x。 


3) 否则 计算 及 = exp( -和 全 中 ) 。 如 果 P,> R， 那 么 用 替代 x*， 其 中 R 是 在 0 到 1 之 间 均 
匀 分 布 的 随机 数 。 











16 £25 


4) 略为 降低 7 值 ， 返 回 第 1 步 。 

模拟 退火 的 工作 机 理 | 

在 组 合 优化 中 理解 模拟 退火 是 最 容易 的 。 在 这 种 情况 下 ， 一 个 向 量 x 的 “邻近 点 ”是 另 一 
个 向 量 Ye， 而 与 x 只 差 一 个 分 量 (离散 值 )。 于 是 如 果 z 是 二 值 的 4 维 向 量 ， 可 以 选择 一 个 邻 
近 点 y = x@z， 其 中 z 是 一 个 二 值 向 量 ， 其 中 只 有 一 个 元 素 是 非 零 的 ， 该 元 素 是 随机 选择 的 。@ 
表示 异 或 。 | 

在 算法 的 第 2 步 ， 执 行 的 是 下 降 ， 于 是 我 们 “ 老 在 下 山 ”。 

但 是 第 3 步 却 提供 了 有 时 向 山上 让 的 机 制 。 先 不 考虑 参数 7 的 影响 ， 而 只 管 分 子 项 ， 那 么 
如 果 y 代 表 一 个 上 山 移动 ， 则 接收 ?的 概率 正比 于 e-wo - we>。 上 坡 移 动 可 以 发 生 ， 但 是 随 着 上 
山 步 幅 增 大 ， 发 生 的 可 能 性 呈 指数 下 降 。 上 升 移动 的 似 然 率 还 要 受 7 的 严重 影响 。 若 7 值 很 大 ， 
那么 SOL BOURKE, = 1。 于 是 所 有 的 上 升 与 下 降 移动 都 可 能 发 生 。 随 着 7 值 膛 渐 碱 小 ， 接 
收 上 升 步 的 可 能 性 会 逐渐 减 小 ， 而 在 7 取 低 的 值 时 (T< (HO) - AH(x))， 这 种 移动 就 基本 上 不 
可 能 。 

这 种 过 程 可 以 看 成 与 一 种 物理 过 程 相 类 似 。 在 这 种 物理 过 程 中 ， 每 个 变量 的 状态 (1 与 0) 
与 粒子 的 自 旋 (上 或 下 ) 相 类 似 ， 在 高 的 温度 时 ， 粒 子 随机 改变 状态 ， 如 果 温 度 逐渐 降低 ， 
就 会 达到 最 小 能 量 状态 。 算 法 第 4 步 中 的 参数 7 就 与 温度 相似 (因而 也 称 为 温度 )， 因 此 这 种 最 
小 化 技术 也 称 为 “模拟 退火 ”。 


2.4 马尔 科 夫 模型 


尽管 在 机 器 视觉 中 主要 关注 的 是 发 生 在 空间 距离 之 间 的 交互 关系 ， 但 马尔 科 夫 (Markov ) 
过 程 还 是 最 容易 用 时 间 的 术语 来 描述 。 其 概念 即 某 个 事件 发 生 的 概率 与 刚 发 生 过 的 某 一 件 事 
情 有 关 。 在 第 6 章 主要 讨论 马尔 科 夫 过 程 在 去 除 噪声 与 分 割 中 的 应 用 ， 同 时 马尔 科 夫 过 程 ， 在 
许多 方面 的 问题 中 得 到 应 用 ， 包 括 字符 识别 [16.1]。 | 

我 们 从 介绍 最 简单 的 马尔 科 夫 模 型 马尔 科 夫 链 开始 ， 这 种 类 型 的 模型 适合 于 何 时 能 够 分 
辨 一 串 事件 的 情况 。 例 如 ， 通 过 计算 机 网 络 收 到 一 串 符 号 ， 或 一 串 字 输 入 到 自然 语言 处 理 器 
中 。 如 果 将 接收 到 的 符号 用 >(D 表 示 ， 其 中 ! 琉 示 接 收 到 该 符号 的 〈 离 散 ) 时 刻 。 于 是 y(T) 在 
7(2) 之 前 收 到 。 如 果 让 w 表 示 符号 所 属 的 类 别 ，wE{wi，w,，…，w.}，c 是 可 能 的 类 别 数 。 作 
为 一 个 例子 ， 将 接收 到 的 信号 用 0 或 1 表示 ， 就 像 通 信 系 统 中 那样 。 

此 时 ， 我 们 关注 的 是 y() 属 于 某 一 具体 类 别 的 概率 。 例 如 第 个 符号 是 “1” 的 概率 是 多 
少 ? 由 于 这 个 概率 与 (符号 串 ) 历史 有 关 ， 这 个 问题 可 表示 为 在 给 出 yj) 前 N 个 符号 的 条 件 下 ， 
y(D 是 “1” 的 概率 ， 其 中 用 w, 表 示 类 别 1: 

POH Ew, 1y(t - 1) Ew, y(t-2) €w, ,, y(t - N) Ew, y) (2-40) 


一 个 具体 一 点 的 例子 是 ，y(D 前 4 个 符号 是 0110 ， 现 问 y(D 为 1 ( 即 w) 的 概率 ， 这 就 可 表 
示 成 : 
P(y(k) Ew, | (y(k - 1) Ew, y(k - 2) Ew, yk- 3)Ew, yk- 4) Ew,)) 


O  xAY BE H1 Sci) Hamming Be By 1 ABTA 15) ref ji. 
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实际 中 与 历史 有 关 的 情况 ， 有 多 种 可 能 ， 有 时 y(D 是 1 的 概率 跟 全 部 历史 有 关 ， 有 时 则 只 

跟 其 前 若干 个 时 刻 收 到 的 符号 有 关 ， 一 个 我 们 特别 感 兴趣 的 情况 是 只 跟 其 前 一 时 刻 的 符号 有 

关 。 此 时 ， 可 以 说 对 符号 >(D 属 哪 一 类 的 概率 在 给 定 全 部 历史 的 条 件 下 ， 只 取决 于 其 之 前 接收 
到 的 最 后 一 个 信息 。 

POK) I y(k - 1) = POLK) OK - 1), 9K - 2), )) (2-41) 


式 中 已 在 符号 表示 上 作 了 简化 ,将 (各 直接 表示 成 它 所 属 的 类 别 。 如 果 在 所 有 历史 条 件 下 ， 
事件 y(D) 的 概率 只 取决 于 其 之 前 收 到 的 最 后 一 个 信息 ， 这 就 称 为 (一 阶 ) 马尔 科 夫 过 程 。 由 于 
本 章 只 讨论 一 阶 过程 ， 因 此 以 后 就 不 再 提 一 阶 两 个 字 9。 

这 个 过 程 就 隐 含 如 下 关系 


N 
PON) Ewy ,YD €w,) = HU POH Ew, IE - 1) ew. ro Ew) 


如 果 假设 只 有 两 个 类 别 ， 表 示 成 0 与 1， 那 么 只 存在 4 种 “转移 概率 ”, 表 示 成 
P(y(t) = Ol y(t - 1) = 0) = Py 
POH -01y(-1) - D» B, 
PON -10yt - 1) = 0) = B, 
POH -10y( -) =1) = B, 
一 般 情况 下 ， 可 能 有 不 止 两 个 类 别 ， 所 以 可 将 转移 概率 表示 成 P;， 并 且 用 一 个 c EEP 
来 描述 马尔 科 夫 链 ，P 的 元 素 是 Py。 在 第 6 章 讨论 马尔 科 夫 随机 场 时 ， 我 们 将 从 另 一 角度 来 看 
待 马尔 科 夫 过 程 。 


作业 2.1 


矩阵 P 是 对 称 的 吗 ? 为 什么 ? P 具 有 哪些 有 趣 的 性 质 ? 它 的 每 一 行 (或 列 ) 加 在 一 起 会 怎 
么 样 ? 


2.4.1 隐 马 尔 科 夫 模型 


隐 马 尔 科 夫 模型 在 许多 应 用 中 都 出 现 ， 例 如 在 语音 识别 中 就 应 用 得 很 成 功 。 在 一 个 隐 马 
尔 科 夫 模型 中 ， 假 设 有 不 止 一 个 转移 矩阵 ， 并 且 有 一 个 无 法 (直接 ) 度量 的 ( 隐 ) 过 程 ， 控 
制 转移 矩阵 之 间 的 转换 。 这 种 转换 过 程 本 身 就 具有 统计 性 质 ， 并 且 一 般 也 假设 为 一 个 马尔 科 
夫 过 程 。 这 种 情况 在 图 2-6 中 表示 ， 其 中 开关 的 状态 决定 了 输出 >(D 是 与 马尔 科 夫 过 程 1 连 呢 ， 
还 是 马尔 科 夫 过 程 2? 这 种 开关 可 以 设想 成 受 控 于 一 个 有 限 状 态 机 (FSM ) ， 在 每 一 时 刻 ， 它 
可 以 停留 在 同一 种 状态 或 发 生 转换 ， 如 图 2-7 所 示 。 

我 们 的 问题 是 : 如 果 我 们 观察 到 一 个 符号 序列 

Y - [xt - D,y(t = 2).--] 2 [0D,72)…] 

那么 我 们 能 从 中 推断 出 什么 ?转移 概率 ?状态 序列 ? FSM 的 结构 ? 控制 FSM 的 规则 ? 下 

面 从 估计 状态 序列 开始 。 


日 。 严 格 地 讲 ， 这 是 个 一 阶 马尔 科 夫 过 程 ， 但 在 本 章 我 们 不 会 涉及 任何 其 他 阶 的 马尔 科 夫 过 程 。 











图 2-6 一 个 隐 马 尔 科 夫 模型 可 以 看 成 在 两 个 图 2-7 起 开关 作用 的 有 限 状 态 机 
信息 之 间 随 机 转换 的 过 程 
估计 状态 序列 


4S) = 1…，N 表 示 与 度量 (0 有 关 的 状态 ， 并 将 状态 序列 表示 成 S=[s(1), s(2), …, s), 


其 中 每 个 *(DE{s，…, sw}。 我 们 要 搜索 出 一 个 状态 序列 5， 它 在 给 定 度量 7 条 件 下 成 立 的 条 件 
概率 最 大 。 这 个 概率 可 写成 P (SY). 
使 用 贝 叶 斯 规则 


p(Y1S)P(S) 
PY) | (2-42) 
由 于 假设 状态 构成 一 个 马尔 科 夫 链 ， 所 以 有 


N 
P(S) = i Pose) 
t= 


我 们 暂且 提出 一 个 不 可 相信 的 假设 ， 即 输出 的 概率 密度 只 取决 于 状态 ， 用 pCO(Dls(D) 表 示 
这 种 关系 。 那 么 该 序列 的 后 验 条 件 概率 可 写成 : 


N N 
P(Y1S)P(S) = I pO so) Ir Posen | © (2-44) 


定义 Pu, s0 = Pv), Mist (2-44) 可 简化 为 


P(SIY)- 


Po (2-43) 





N 
[23 | part Spec) - [ [POO SO) Risa (2-45) 


回 过 来 观察 式 《2-42) 可 以 看 到 5 的 选择 并 不 影响 其 分 母 ， 因 此 只 需 找 到 使 下 式 最 大 化 的 
序列 S$ 


N 
E= [ [p001s09£,,,. (2-46) 


值得 高 兴 的 是 ， 的 确 有 一 个 算法 可 以 解 这 个 最 大 化 问题 ， 这 个 算法 是 维特 比 (Viterbi) 
算法 ， 它 有 许 许多 多 的 应 用 。 它 将 在 下 一 节 中 讨论 。 


2.4.2 维特 比 算法 
这 是 一 个 用 在 某 种 特定 优化 问题 的 算法 ， 其 中 每 一 个 状态 s(D) 只 有 两 个 相 邻 状态 s(t+1) 与 
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st- 1)。 在 这 种 限定 条 件 下 可 以 得 到 一 个 有 效 的 算法 。 
首先 ， 由 于 在 几乎 所 有 场合 ， 用 加 法 来 代替 乘法 ， 总 能 使 问题 变 得 容易 一 些 。 所 以 定义 
一 个 使 用 对 数 的 新 目标 函数 : 


N 
LelnEs 2,00*9,) (2-47) 


FEA Wr) = In POMISMLUARS,. j= In p; je 
为 了 方便 ， 将 一 组 可 能 的 序列 用 如 图 2-8 表 示 的 图 表示 。 某 一 个 特定 序列 用 图 中 的 一 条 路 径 
表示 。 作 为 一 个 例子 ， 对 N =4，m = 3 的 这 样 一 幅 图 来 说 ， 路 径 [s1, so 55, 51] 表 示 在 图 2-9 上 。 


Os, Osp Os, 
Sd 

$3 Os, Os, Os, Os, Os, Os, 
Os, Os, 5) Os, Os, 83 Os, 
Os, Os, Os, Os, S2 Os, Os, 
=I {=2 1=N 51 Os, Os, S| 
图 2-8 每 种 可 能 的 序列 可 以 设想 成 穿 过 图 2-9 在 一 个 有 4 种 状态 与 4 个 时 刻 的 值 

这 样 一 幅 图 的 一 个 路 径 的 问题 中 的 一 条 路 径 


像 这 样 的 一 条 路 径 ， 意 味 着 函数 有 一 组 值 。 对 图 中 的 每 一 个 结 点 ， 都 附 有 惠 的 一 个 值 。 假 
RERA) 22, y(2)=1, y3)=2.2, y(4) = 1， 则 函数 亚 的 值 
V = In p(y) = 21 s(1) = s) + In p(y2) = 115(2) = s,) 
*In p(y(3) = 2.21 5(3) = 5,) + In p(y(4) = 10 5(4) = 5,) 


在 图 中 每 条 边 也 都 有 一 个 值 ， 函 数 @ 由 相应 的 转移 概率 决定 。 所 以 贯穿 该 图 的 每 一 个 可 能 
的 路 径 都 有 一 个 相应 的 目标 函数 值 L。 我 们 采用 归纳 法 来 叙述 该 算法 搜索 最 佳 路 径 的 过 程 ， 假 
设 在 时 刻 我 们 已 经 找到 每 个 结 点 的 最 佳 路 径 ， 其 成 本 为 LB(1)，i = 1，…，m。 那 么 ， 可 通过 
下 式 计 算出 从 1 时 刻 每 个 结 点 到 t+ 1 时 刻 每 个 结 点 的 成 本 (mre? 次 计算 ): 

Lj ¢+1) = LB) + OUDIS +D)) +8, (2-48) 

而 在 + + 1 时 刻 到 达 / 结 点 的 最 佳 路 径 是 对 应 于 其 中 的 最 大 值 。 当 最 终 到 达 时 刻 N 时 ， 终 止 
最 佳 路 径 的 结 点 就 是 最 终 的 结 点 。 

该 算法 的 计算 复杂 度 是 No ， 它 远 比 要 小 ， 而 mx 是 穷尽 搜索 全 部 可 能 路 径 算法 的 复杂 度 。 
2.4.3 马尔 科 夫 输出 

在 上 述 讨论 中 ， 曾 假定 某 个 输出 的 概率 只 取决 于 其 状态 ， 其 实 根本 不 需要 这 种 限制 。 输 
出 本 身 可 以 是 一 个 马尔 科 夫 过 程 。 如 果 状 态 发 生 改 变 ， 第 1 个 输出 仅 取决 于 该 状态 ， 但 随后 如 


果 该 状态 保持 不 变 ， 输 出 则 可 服从 马尔 科 夫 链 。 这 种 情况 下 可 将 问题 表示 成 与 以 上 相同 的 方 
式 ， 并 用 维特 比 算法 来 求解 。 
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剩 下 的 最 后 一 个 问题 是 : 在 给 定 观察 序列 7 条 件 下 ， 如 何 估计 条 件 输出 概率 PO( 人 (1 sk), 
以 及 转移 概率 p,? 

为 此 我 们 首先 需要 将 (攻取 连续 值 的 情况 转换 成 离散 值 的 情况 ， 使 得 我 们 可 以 使 用 概率 而 
不 是 概率 密度 。 假 设 >(DE{7， 思 ，…，y}， 那 么 就 可 定义 一 个 输出 概率 矩阵 I] = [re k = 
1 13 【= 1 了 ， 它 表示 如 果 状 态 为 %， 观 察 输出 为 7 的 概率 。 ”- 

定义 

Fay (t) = Pr((s(t - 1) = i, s(t) = j)! Y) (2-49) 

也 就 是 说 要 计算 在 给 定 观察 序列 条 件 下 ， 即 在 时 刻 ! 时 从 状态 ;转移 到 状态 j 的 概率 。 如 果 
知道 转移 概率 Pi 以 及 输出 概率 x,， 就 可 以 使 用 2.4.2 节 的 方法 计算 该 值 。 假 设 这 些 的 确 已 知 ， 
那么 可 以 通过 对 所 有 输入 得 到 的 概率 的 均值 来 估计 转移 概率 。 


已 mr 人 

Pj= Deeg (2-50) 
> oO 

Kh, 由 于 到 达 j 结 点 可 来 自 其 他 所 有 结 点 ， 则 有 : 


Pry e Y Fs) (2-51) 
于 是 通过 再 次 平均 所 有 观察 概率 ， 来 重新 估计 观察 概率 6: 
Y. N P(t) ` 
m, es (2-52) 


j Ya Pay (t) 


这 是 一 个 迭代 算法 ， 在 每 次 选 代 中 使 用 (2-50) 与 (2-52) 式 来 修改 参数 ， 然 后 用 (2-49) 
45 (2-51) 式 来 修改 条 件 概率 。 该 过 程 重 复 下 去 直至 收敛。 


2.4.5 隐 马 尔 科 夫 模型 的 应 用 
隐 马 尔 科 夫 模 型 在 语音 识别 与 文件 内 容 识别 [17.29] 中 找到 了 许多 应 用 。 
作业 2.2 

”在 哪 本 小 说 中 曾 出 现 一 个 名 叫 Markov Chariey 的 人 物 ? 
作业 2.3 
确定 一 个 绕 z 轴 旋转 30" 的 正 交 变换 ， 并 证 明 得 到 的 矩阵 构成 站 的 基 。 
作业 2.4 
试 证 : X (2-10). 


© HEBA (2-52) 笔 误 ， 故 纠正 。 一 一 译 者 注 
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提示 : 使 用 式 (2-7) ; X (2-9) 也 可 能 有 用 。 
作业 2.5 

试 证 : 一 个 正定 矩阵 具有 正 的 特征 值 。 

作业 2.6 


是 否 有 一 个 唯一 的 值 x， 能 使 函数 y=xe “达到 最 小 ? 如 果 是 的 话 ， 你 能 否 通过 求 导 并 设 导 
数 为 0 找到 x 值 ? 假设 这 个 问题 需要 用 梯度 下 降 法 ， 写 一 个 相应 算法 。 


作业 2.7 


我 们 需要 使 用 梯度 下 降 法 解 一 个 最 小 化 问题 。 要 最 小 化 的 函数 是 sinx + lny， 下 面 式 子 中 
哪 一 个 是 在 梯度 下 降 法 中 需要 用 的 梯度 表达 式 ? 





(a) cosx+ (b) y=- (c) - œ% 


COS X 


(e) 2 sinx + any 
oy Ox 


作业 2.8 


(a) 写 一 个 使 用 梯度 下 降 的 算法 ， 该 算法 能 找到 向 量 [x, 六 7， 使 函数 z = x exp(-(  y)3 
到 最 小 。 
(b) 为 此 算法 编写 计算 机 程序 。 


作业 2.9 
确定 函数 sinx 与 sin2x 是 否 是 正 交 归 一 或 正 交 函数 。 
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第 3 章 编写 图 像 处 理 程序 


Computer Science is not about computers any more than astronomy is about telescopes. 
EW Dijkstra 

人 们 可 以 用 两 种 方法 编写 图 像 处 理 软件 ， 这 取决 于 人 们 要 求 在 哪 一 方面 实现 最 优 。 可 以 
考虑 以 优化 /最 小 化 编程 者 时 间 的 方式 ， 或 考虑 使 计算 机 时 间 最 小 的 方式 。 在 本 课 中 不 考虑 计 
算 机 时 间 的 优化 ， 而 认为 编程 人 员 的 时 间 是 宝贵 的 。 因 此 我 们 遵循 这 样 一 个 编程 哲学 ， 即 在 
编程 时 间 最 短 条 件 下 编 出 正确 可 操作 的 程序 。 

本 书 作 业 规 定 使 用 C 或 C++ 语言 ， 而 不 是 MATLAB 或 JAVA 。 这 是 作者 经 过 深思 熟 虑 后 做 
出 的 决定 。 对 用 户 来 说 MATLAB 隐 藏 了 许多 有 关 数 据 结构 以 及 数据 管理 的 细节 。 在 教授 这 门 
课 的 过 程 中 ， 此 课程 的 变化 已 有 多 年 ， 但 作者 发 现 这 些 方面 的 许多 细节 正 是 学 生 需 要 掌握 的 ， 
它们 能 使 得 学 生 真 正 理 解 图 像 处 理 (尤其 在 像素 这 一 级 ) NAM. 


3.1 图 像 文件 系统 软件 


要 达到 能 很 快 地 写 出 好 的 软件 这 个 目标 ， 可 以 通过 使 用 图 像 文件 系统 (IFS) 中 的 图 像 访 
问 子 程序 来 实现 。IFS 是 一 组 子 程序 ， 以 及 基于 这 些 子 程序 的 应 用 的 集合 ， 它 支持 开发 图 像 处 
理 软 件 。. 

IFS 的 优点 包括 以 下 儿 点 : 

。IFES 支 持 任何 数据 类 型 ， 包 括 字符 〈char)、 无 符号 字符 (unsigned char)、 短 整数 、 无 符 

号 短 整 数 、 无 符号 整数 、 浮 点 、 双 精度 、 复 数 浮 点 、 复 数 双 精度 、 复 数 短 、 以 及 结构 。 

。IFS 支 持 任何 图 像 尺 寸 ， 以 及 任何 维 数 。 可 以 把 信号 看 作 一 维 图 像 而 进行 信号 处 理 。 

。IFS 在 大 多 数 现 有 计算 机 系统 都 有 、 包 括 PC 机 上 的 Windows，PC 机 上 的 Linux、SUN 的 

Unix 以 及 Macintosh 上 的 OS-XS。 在 一 个 平台 上 写 的 文件 ， 可 以 在 任何 一 个 别 的 平台 读 。 

将 格式 转换 成 适应 别 的 平台 的 格式 是 由 读 程 序 完 成 的 ， 不 用 用 户 干预 。 

。 有 大 量 可 用 程序 ， 包 括 两 维 健 里 叶 变换 、 滤 波 器 、 分 割 运算 等 。 


3.1.1 IFS 头 部 结构 


所 有 的 IFS 图 像 都 包括 一 个 头 部 ， 其 中 包括 各 种 有 关 图 像 的 信息 ， 诸 如 图 像 中 点 的 数目 、 
图 像 的 维 数 、 数 据 格式 、 每 一 维 的 单位 与 扫描 方向 等 等 。 与 图 像 有 关 的 是 图 像 的 实际 数据 ， 
图 像 头 部 包括 到 图 像 数据 的 指针 。 

用 户 操作 一 幅 图 像 是 通过 调用 IFS 库 中 的 某 些 函 数 ; 这 些 函 数 的 一 个 变量 是 头 部 地 址 ， 根 
据 头 部 提供 的 信息 ，IFS 库 的 函数 自动 确定 数据 在 何 处 ， 以 及 如 何 存 取 数 据 。 除 了 存 取 图 像 数 
据 外 ，IFS 程 序 自 动 地 管理 在 存储 器 中 的 空间 分 配 来 储存 数据 与 头 部 。 任 何事 情 都 是 动态 进行 
操作 的 ; 并 没有 固定 维 数 的 数组 。 这 就 使 得 用 户 可 以 摆脱 在 数组 中 存 取 数 据 的 困难 ， 在 数组 


日 ”抱歉 ，IFS 不 支持 OS-X 之 前 的 Macintosh 操 作 系 统 。 
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尺寸 不 国定 的 情况 下 ， 用 户 自己 做 这 种 事 是 挺 麻烦 的 。 

图 像 的 头 部 结构 在 文件 <ifs.h> 中 定义 ， 通 过 IFSHDPR 获 取 。 为 了 操作 一 幅 图 像 ， 用 户 仅仅 需 
要 发 布 一 个 指针 到 图 像 的 头 部 结构 (如 IFSHDR*your_image; 或 JSIMG your. image; )， 然 后 ， 
用 户 只 需 调用 某 些 IFS 函 数 构造 一 幅 新 的 图 像 ， 并 且 将 指针 设置 到 由 这 些 函 数 返 回 的 值 中 去 。 


3.1.2 某 些 有 用 的 IFS 函 数 


可 以 用 ifspin 将 图 从 盘 中 读 出 。 这 个 子 程序 会 计算 图 像 的 尺寸 ， 以 及 需要 多 大 的 存储 器 ， 
并 确定 图 像 是 用 怎样 的 计算 机 写 的 。 它 将 执行 所 有 必要 的 数据 转换 ( 字 节 交换 ， 浮 点 格式 转 
换 等 )， 以 及 将 其 以 适合 你 正 使 用 的 计算 机 的 格式 读 进来 。 你 用 不 着 知道 这 些 数据 转换 操作 是 
如 何 进行 的 。 与 此 相似 ， 可 以 用 ifspot 将 图 像 写 到 盘 上 。 这 些 子 程序 会 把 IFS 头 部 以 及 相关 的 
图 像 数据 从 内 存 写 到 磁盘 中 去 。 

可 以 用 ifsigp 或 ifsfgp 以 及 ifsipp 或 ifsfpp 存 取 图 像 。 这 些 子 程序 的 名 字 表示 IFS 获 取 整 数 像 
素数 据 ， IFS 获 取 浮 点 数 像 素数 据 ，IFS 放 置 整数 像素 数据 ， 以 及 IFS 放 置 浮 点 像素 数据 。 字 
Integer 与 Floating 指 的 是 返回 或 写 入 的 数据 类 型 。 例如 


v=ifsfgp(img, x, y) 


那么 返回 的 是 浮 点 数 ， 而 与 图 像 数据 类 型 无 关 。 也 就 是 说 ， 子 程序 为 你 进行 数据 转换 。 同 样 
ifsigp 会 返回 一 个 整数 ， 而 不 管内 部 数据 是 什么 类 型 。 当 然 这 也 会 给 你 带 来 麻烦 。 设 想 一 下 内 
部 数据 类 型 是 浮 点 数 ， 而 一 幅 图 像 由 小 于 1 的 数据 组 成 。 那 么 从 浮 点 转换 成 整数 的 过 程 会 将 图 
像 数 据 截 成 零 。 | 

某 些 编程 作业 可 能 要 用 三 维 数据 。 这 意味 着 用 户 必须 用 一 组 别 的 子 程序 存 取 图 像 : 
ifsigp3d、ifsfgp3d、ifsipp3d 以 及 ifsfpp3d。 例 如 


y=ifsigp3d(img, frame, row, col) 


34.3 带 共性 的 问题 


当 学 生 初 次 使 用 IFS 软 件 时 ， 通 常会 有 两 个 共同 的 问题 : 

1) ifsipp(img, x, y, exp( 一 t*t)) 会 引起 麻烦 ， 因 为 ifsipp 期 待 第 4 个 变量 是 整数 ， 而 exp 将 返 
回 一 个 双 精 度数 。 此 时 应 该 用 ifsfpp。 

2) ifsigp(img, x, y, z) 是 一 个 不 恰当 的 格式 。ifsigp 期 待 3 个 变量 ， 并 且 不 通过 检查 输入 图 像 
的 维 数 来 确定 变量 数目 。 为 了 存 取 一 个 三 维 图 像 ， 可 以 使 用 指针 或 用 ifsigp3d(img,x,y,z)， 其 
中 第 2 个 变量 是 帧 号 。 


3.2 图 像 处 理 程序 的 基本 结构 


图 像 可 以 看 作 一 个 二 维 数组 。 它 们 一 一 般 以 光 李 扫描 的 方式 一 个 像素 接 一 个 地 进行 处 理 。 
为 了 操作 一 幅 图 像 ， 两 个 马 套 的 for 循 环 是 最 常用 的 程序 结构 ， 如 图 3-1 所 示 。 

在 这 个 例子 中 ， 用 两 个 整数 (row 与 col) 作为 图 像 中 行 与 列 的 索引 。row 与 col 每 增加 1， 
就 执行 了 图 像 像 素 的 扫描 ， 从 左 到 右 ， 从 上 到 下 。 

如 果 图 像 有 两 个 以 上 维 数 〔 例 如 多 谱 图 像 )，、 则 有 第 3 个 整数 用 来 作为 维 数 的 索引 。 相 应 
的 也 要 使 用 三 个 修 套 for 循 环 ， 如 图 3-2 所 示 。 
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for (frame = 0; frame < 224; frame++) 


for ( row = 0; row < 128; rowt+) 
for (row = 0; row < 128; rowt*) — for( col = 0; col < 128; coh+) 


for( col = 0; col < 128; col++) /* pixel processing */ 


/* pixel processing */ 





图 3-1 基本 程序 结构 : MRE A forte 图 3-2 基本 程序 结构 : 三 个 侯 套 的 for 循 环 


3.3 好 的 编程 风格 


编写 程序 时 要 遵循 一 个 重要 的 编程 原则 : 所 有 编写 的 程序 要 能 适应 任何 尺寸 的 图 像 。 这 
里 并 不 要 求 所 写 的 程序 能 适应 多 种 维 数 的 图 像 (适应 不 同 维 数 的 程序 也 是 可 能 的 ) ， 或 任何 数 
据 类 型 ， 只 要 求 图 像 尺 寸 。 这 意味 着 对 所 编程 序 有 一 个 要 求 ， 即 不 能 发 布 一 个 静态 数组 ， 并 
将 所 有 数据 拷 人 数组 内 ， 相 反 必 须 使 用 图 像 存 取 子 程序 。 

另 一 个 重要 的 指导 原则 是 ， 除 了 在 极 个 别 的 场合 外 ， 不 要 使 用 全 局 变量 。 全 局 变量 是 在 子 
程序 外 定义 的 一 个 变量 ， 使 用 这 种 全 局 变量 是 一 种 不 良 的 编程 技巧 ， 会 比 所 有 其 他 编程 技巧 引 
起 更 多 的 缺陷 。 好 的 编程 实践 要 求 子 程序 需要 知道 的 任何 一 件 事情 都 包括 在 它 的 参数 表 内 。 

遵循 这 些 简 单 的 编程 指导 原则 ， 会 使 你 易于 高 效率 地 写 出 通用 性 强 的 程序 。 随 着 编程 技 
巧 的 增长 ， 如 果 需 要 ， 可 以 考虑 采用 指针 管理 功能 ， 以 增加 程序 的 运行 速度 。 

除了 以 上 提 到 编程 指导 原则 外 ， 对 学 生来 说 遵循 缩 排 、 留 空格 、 和 注释 规则 ， 会 使 得 纺 
码 的 “可 读 性 ”好 。 

常用 的 缩 排 格 式 有 4 种 ， 即 K&R 格式 (或 核 格式 )、Allman 格 式 (或 BSD 格 式 )、 
Whitesmiths 格 式 以 及 GNU 格 式 ， 如 图 3-3 所 示 。 本 书 采用 Allman 格 式 。 在 不 同 段落 之 间 加 些 
空 行 也 能 改善 可 读 性 。 要 强调 注释 的 重要 性 。 但 是 不 要 加 太 多 的 注释 ， 以 免 打 断 编码 的 流畅 
性 。 一 般 说 来 ， 要 在 每 个 函数 的 顶部 加 一 段 注 释 ， 包 括 这 个 函数 做 什么 用 的 描述 ， 谁 写 的 这 
个 函数 ， 如 何 调用 该 函数 ， 以 及 该 函数 返回 的 是 什么 等 内 容 。 还 应 该 增加 对 每 个 变量 发 布 的 
描述 。 


for (<cond>) { for («cond») for («cond») for («cond») 
«body» 


«body» } <body> <body> 


y 
} 


a) K&R 格式 b) Allman 格 式 c) Whitesmiths 格 式 d) GNU 格 式 





图 3-3 4 种 常用 的 缩 排 格式 
49.4 示例 程序 


再 看 一 看 IFS 手 册 ， 它 会 帮助 你 理解 这 些 示例 程序 。 同 时 ， 还 要 注意 我 们 使 用 的 编程 风格 。 
示例 程序 中 的 注释 可 能 偏 详 细 了 一 些 ， 但 这 只 是 为 了 教学 用 的 。 








26 HI€ 


图 3-4 是 一 个 典型 的 程序 ， 它 也 许 是 可 以 写成 的 最 简单 例子 了 。 图 3-5 列 出 另 一 个 例子 ， 它 
实现 与 图 3-4 程 序 相同 的 功能 ， 但 是 写 的 方式 更 加 灵活 ， 也 因此 能 适用 于 不 同 尺 寸 的 图 像 。 

这 两 个 示例 程序 都 使 用 子 程序 调用 ifsigp、ifsipp、 ifsfgp 与 ifsfpp 来 存 取 图 像 ， 并 用 整数 
值 或 浮 点 数据 。 这 些 子 程序 的 优点 就 是 方便 : 不 管 图 像 以 什么 样 的 数据 类 型 存储 ，ifsigp 返 回 
整数 ， 而 ifsfgp 返 回 浮 点 数 。 在 内 部 ， 这 些 子 程序 确定 数据 存在 哪里 、 存 取 这 些 数据 并 进行 相 
应 转换 。 当 然 所 有 这 些 操 作 都 消耗 计算 机 时 间 ， 作 为 教学 作业 ， 我 们 强烈 推荐 使 用 这 些 子 程 
序 。 然 而 用 作 产 品 ，IFS 支 持 使 用 指针 对 数据 直接 存 取 的 方法 ， 以 增加 编程 人 员 时 间 来 缩短 运 
行 时 间 。 


/* Example1.c "EE 


This program thresholds an image. It uses a fixed image Size. 
Written by Harry Putter, October, 2006 


&include <stdio.h> 
#include <ifs.h> 
main( ) 


IFSIMG img1, img2; /* Declare pointers to headers */ 

int len[3]; /* len is an array of dimensions, used by ifscreate */ 
int threshold; /* threshold is an int here */ 

int row,col; /* counters */ 

int v; 


f* read in image */ 
img1 = ifspin("infile.ifs"); f read in file by this name */ 


/* create a new image to save the result */ : 
len{O] = 2; /* image to be created is two dimensional */ 


len[1] = 128; /* image has 128 columns */ 

lenl2] = 128; /* image has 128 rows */ 

img? = ifscreate("u8bit",len,IFS_CR_ALL,O); P image is unsigned 8 bit */ 
threshold = 55; /* set some value to threshold */ 


/* image processing part - thresholding */ 
for (row = 0; row < 128; row++) 
for (col = 0; col < 128; col++) 


v= itsigp(imgt row, col); /* read a pixel as an int */ 
if (v > threshold) f ; 
ifsipp(img2,row,col,255); 
else 
ifsipp(img2,row,col,0); 


/* write the processed image to a file */ 
ifspot(img2, "img2.ifs"); /* write image 2 to disk */ 
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/* Example2.c . . . . . 
Thresholds an image using information about its data type and the dimensionality. 
Written by Sherlock Holmes, May 16, 1885 


stinclude «stdio.h» 
#include <ifs.h> 


main( ) 
{ 


IFSIMG img1, img2; /* Declare pointers to headers */ . 

int *len; /* len is an array of dimensions, used by ifscreate */ 
int frame, row, col; /* counters */ 

float threshold, v: /* threshold is a float here */ 


图 3-5 一 个 IFS 程 序 的 例子 ， 使 用 输入 图 像 确定 的 维 数 、 每 一 维 的 尺寸 
以 及 数据 类 型 来 对 图 像 进行 阔 值 化 
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img1 = ifspin("infile.ifs"); /*read in file by this name*/ . . . 
len = oem /* ifssiz returns a pointer to an array of image dimensions*/ 
img2 = ifscreate 


img1->ifsdt,len, {FS_CR_ALL,O); . 
/* output image is to be the same type as the input */ 
threshold = 55; /* set some value to threshold */ 


/* check for one, two or three dimensions */ 

switch (len[0]) ( 

case 1: /* 1d signal */ 
for (col = 0; col « ten[1]; col++) 


v = ifsfgp(img1,0,col); /* read a pixel as a float */ 

if (v » threshold) 
ifsfpp(img2,0,col,255.0); /* write a float */ 

eise /* if img2 not float, will be converted*/ 
ifsfpp(img2,0,col,0.0); 


break; 
case 2: /* 2d picture */ 
for (row = 0; row « len[2]; row++) 
for (col = 0; col < len[1]; col++) 


v = ifsfgp(img1,row,col); /* read a pixel as a float */ 
if (v » threshold) 

ifsfpp(img2,row,col,255.0); /* store a float */ 
else 


ifsfpp(img2,row,col,0.0); 


break; 
case 3: /* 3d volume */ 
for (frame = 0; frame < len[3];frame--*) 
for (row = 0; row < len[2]; row++) 
for (col = 0; col < len[1]; cot-*) 


v = ifsf pad(img1 ,frame,row,col); /* read a pixel as a float */ 
if (v > threshold) 
| ifsfpp3d(img2,frame,row,col,255.0); 
else 
itsfpp3d(img2, frame, row,col,0.0); 


break; 
default: 

printf("Sorry | cannot do 4 or more dimensions\n’); 
} 7 end of switch */ 


ifspot(img2, "img2.ifs"); /* write image 2 to disk */ 





图 3.5 (A) 
3.5 生成 文件 


编程 应 该 使 用 makefiles (生成 文件 )， 这 比 只 用 输入 命令 的 方式 要 好 得 多 。 如 果 使 用 Microsoft 
C++，Lcc 或 其 他 某 种 编译 器 来 开发 软件 ， 那 么 makefiles 是 隐藏 的 ， 但 知道 它们 如 何 操作 仍 是 有 益 
的 。makefiles 的 主要 功能 是 规定 如 何 构造 用 户 的 程序 ， 我 们 用 图 3-6 的 例子 说 明 这 一 点 。 

图 3-6 的 例子 只 是 一 个 再 简单 不 过 的 例子 。 它 说 明 名 字 为 myprogram 的 可 执行 文件 只 取决 于 
一 件 事 情 一 一 目标 模块 myprogram.o。 然 后 它 显示 怎样 由 myprogram.0 与 IFS 库 生 成 myprogram 。 


myprogram: myprogram.o 
cc -o myprogram myprogram.o /CDROM/Solaris/ifslib/libifs.a 


myprogram.o: myprogram.c 
cc -c myprogram.c -I/CDROM/Solaris/hdr 





图 3-6 一 个 生成 文件 (makefile) 的 例子 ， 它 编译 一 个 程序 并 将 其 与 FS 库 链接 
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同样 ，myprogram.o 是 对 源 文件 myprogram.c 进 行 编译 (没有 连接 ) ,生成 的 ， 它 使 用 了 一 个 


名 字 为 hdr 的 头 文件 ， 这 是 在 CDROM 的 “include” 目 录 中 找到 的 。 注 意 ' 为 了 规定 一 个 库 ， 就 
像 在 link (链接 ) 步骤 中 一 样 ， 必 须 规定 库 的 名 字 【例如 libifs.a)， 但 是 为 了 规定 一 个 include 文 
件 〈 例 如 is.h)， 只 要 规定 该 文件 所 在 的 目录 ， 因 为 文件 名 在 #nclude 程 序 指令 中 给 出 。 


WIN32 中 的 makefile 如 图 3-7 例 子 所 示 。 该 程序 演示 了 生成 程序 的 许多 符号 定义 能 力 ， 也 


明确 规定 了 编译 器 的 位 置 。 


由 IFS 生 成 的 程序 (ifsview 除 外 ) 是 要 有 平台 支持 的 ， 也 就 是 说 ,- 运行 他 山 之 石 要 在 PC 的 


MSDOS 内 部 、 在 Linux ，Solaris 下 的 终端 内 部 、 或 在 Mac 中 使 用 OS-X 操 作 系 统 。 


CFLAGS=-Ic:\lcc\include -g2 -ansic 
CC=e\cc\bin\Icc.exe 
LINKER=c:\ice\bin\icciInk.exe 
DIST=c:\ece763\myprog\icc\ 
OBJS=c;\ece763\myprog\objs\ 
LIBS- ifs.lib -Im 

3 Build myprog.c 


myprog: 
$ gc -c $(CFLAGS) c:\ece763\myprog\mysubroutine1.c 
<3 CFLAGS) c:\ece763\myprog\mysubroutine2.c 

-C 


CFLAGS) c:\ece763\myprog\myprog.c 


$(LINKER) “Subsystem console -o myprog.exe myprog.obj mysubroutine1 .obj 


mysubroutine2.obj $(LIBS) 





图 3-7 一 个 WIN32makefile 的 例子 
作业 3.1 学 会 如 何 使 用 工具 


Windows 用 户 : 
如 果 你 使 用 的 是 WIN32 计 算 机 ， 为 建立 所 有 IFS 文 件 的 目录 ， 打开 MSDOS 以 及 cd。 你 用 


什么 样 的 程序 在 一 幅 图 像 中 添加 高 斯 噪声 ? (提示 : 查看 INDEX )。 把 该 程序 应 用 到 
angio128.ifs 的 图 像 中 。 用 ifsview 显 示 结 果 。 思 考 如 何 打 印 结果 ， 并 递交 问题 的 答案 与 图 像 。 


时 ， 


”作业 3.2 学 会 如 何 使 用 IFS 


这 个 作业 的 目的 是 使 你 学 会 用 计算 机 ， 并 开始 写 程序 。 

使 用 ifsview 来 观察 下 列 图 像 : 

images / echol 

images / echo2 

images / echo3 

使 用 any2any 将 上 述 每 个 转换 成 TIFF (键入 “any2any -h” )。 

例如 可 以 用 : 

any2any echol.ifs echo1.tif tiff 

重要 的 按 语 : echo1 是 三 维 的 ，TIFF 是 二 维 图 像 格式 ， 当 你 照 上 面 所 示 方 法 使 用 any2any 
你 得 到 的 只 是 第 0 帧 ! | 

你 会 看 到 三 个 echo 图 像 是 相似 的 ， 完 成 作业 ， 并 用 一 段 文字 描述 图 像 看 上 去 是 怎样 的 。 


你 不 知道 这 些 结构 是 可 以 理解 的 ， 所 以 你 只 需 描 述 你 所 见 到 的 ， 包 括 一 幅 图 像 ( 想 想 如 何 打 
印 一 个 文件 ， 我 们 希望 你 已 经 会 做 这 些 )。 如 果 你 恰巧 知道 这 些 结构 ， 你 的 导师 会 对 你 有 好 印 
象 的 。 











第 4 章 图 像 的 生成 与 表示 方式 


Computers are useless. They can only give us answers. 
Pabla eassa 


这 一 章 我 们 描述 图 像 是 如 何 生 成 的 ， 以 及 它们 是 以 什么 方式 表示 的 。 表 示 方 式 包括 两 部 
分 ， 一 部 分 是 包含 在 图 像 内 的 信息 的 数学 表示 方法 ， 另 一 部 分 是 图 像 在 数字 计算 机 中 如 何 存 
储 与 操作 的 方法 。 在 本 章 中 还 介绍 一 种 思考 图 像 的 方法 ， 即 将 图 像 看 作 高 度 有 变化 的 一 个 表 
面 。 这 种 表示 方法 对 描述 图 像 的 性 质 与 对 图 像 的 操作 都 是 一 个 强 有 力 的 工具 。 


4.1 图 像 的 表示 方法 


这 一 而 讨论 表达 图 像 中 信息 的 几 种 方法 。 这 些 表 示 方 法 有 : 图 像 形式 、 函 数 型 式 、 线 性 、 
概率 方法 、 空 域 频率 以 及 关系 表示 。 


4.1.1 图 像 表示 


一 幅 图 像 中 信息 的 图 像 表示 (iconic representation) 是 一 幅 图 像 。“ 噢 ， 是 的 ， 一 采 玫 瑰 就 
是 一 打 玫 瑰 。”( 译 者 注 : 作者 的 意思 是 指 似乎 什么 也 没有 说 )。 当 人 们 了 解 了 函数 型 式 、 线 性 
与 关系 表示 的 含义 时 ， 就 会 体会 到 要 用 一 个 词 表 示 一 种 表示 方法 ， 该 种 表示 自身 就 是 一 幅 图 
R. 图像 形式 表示 方法 的 例子 有 以 下 几 种 。 

“2 维 灰 度 图 像 ， 也 称 亮 度 图 像 。 这 种 表示 一 般 就 称 为 “图 像 ”， 可 能 是 彩色 的 或 灰 度 级 的 。 

《要 当心 使 用 “黑白 〈 图 像 )”， 因 为 它们 可 能 会 理解 成 “二 值 的 ".) — y 

般 用 f(x, y) 表 示 图 像 中 一 点 <x, 关 的 亮度 。 注 意 x* 与 ?可 以 是 整数 (此 时 ， 

指 的 是 采样 后 的 图 像 中 离散 的 点 ; 这 些 点 称 为 “像素 ”(pixel) 是 “图 Sy) 

像 元 素 ” 的 缩写 形式 ) ， 或 实数 (此 时 ， 把 图 像 看 成 一 个 函数 ) 。 

“3 维 (BE) 图 像 。 这 种 数据 结构 通常 出 现在 医学 图 像 中 ， 例 如 CT ( 计 * 

算 机 层 析 图 像 )，MRI (核磁 共振 图 像 )、 超 声 图 像 等 。 在 典型 的 三 维 图 T 

像 中 ， 每 个 像素 表示 一 点 的 密度 〈 从 技术 上 讲 ， 无 法 只 在 一 点 度量 密度 。 Syz) 

而 只 能 在 该 点 邻 域 范围 内 度量 密度 ， 但 其 含义 是 清楚 的 )。 通 常 将 在 某 

A<, y, z> 的 密度 用 f(x, y, JRR. x 

。 old (距离 ) 图 像 。 在 距离 图 像 中 ，( 物 体 ) 表面 每 一 点 的 值 表示 一 种 


2 ?| zy») 

距离 ， 通 常 是 指 到 摄像 机 的 距离 ， 或 包含 摄像 机 的 一 个 平面 的 法 向 距离 。 d 
于 是 在 距离 图 像 中 表面 点 的 位 置 用 z(x, y) 表 示 。 例 设 传感器 是 激光 飞 点 扫 * 
描 器 ， 那 么 图 像 的 “亮度 ”实际 上 正比 于 一 个 油光 脉冲 到 达 表 面 ， 再 反弹 回 到 光源 处 一 
检测 器 所 需 的 时 间 。 实 际 上 这 种 传感器 测量 的 距离 是 两 个 偏转 角 的 函数 r(6, p), ATE 
成 一 幅 距 离 图 像 。 然 而 从 这 些 坐 标 转换 成 z(x, y) 是 很 简单 的 。 一 般 得 到 的 数据 (至 少 在 本 
TB) 都 是 经 过 校正 生成 的 高 度 图 (altitude image). 
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41.2 函数 表示 


可 以 对 任何 一 组 数据 点 拟 合 一 个 函数 ， 当 我 们 对 一 幅 图 像 进行 度量 时 ， 它 是 由 一 个 离 

散 有 限度 量 集 f (i, 站 组 成 ， 其 中 i 与 j 是 离散 的 像素 坐标 (整数 )， 分 别 沿 x 与 y 方 向 。 通 过 某 

种 运算 可 以 找到 一 个 连续 函数 ， 例 如 ， 最 小 二 乘 运算 能 对 这 组 数据 进行 最 佳 拟 合 。 于 是 就 

可 以 用 一 个 方程 式 ， 双 元 二 次 函数 (biquadratic )， 来 表示 一 幅 图 像 (至 少 图 像 中 的 一 个 小 
区 域 ): 

z=ax’ «by! «cxy e dx «eye f (4-1) 


或 二 次 方程 式 (quardic ): 
ax? + by! « cz? + dxy +exz+ fyz+ gx+hy+iz+j=0 (4-2) 
TEX, (4-1) 中 ， 一 个 变量 是 用 其 他 变量 定义 的 ， 故 通常 称 为 显 式 表 达 式 ， 而 式 (4-2) 是 
一 个 隐 式 表达 [4.23]， 它 可 以 等 价 地 用 零 集 这 个 术语 (zero set) {(x, y, 2: f (x, y, 2 = ORR. 
隐 多 项 式 有 某 些 方便 的 性 质 。 例 如 设想 不 在 f(x, y) 的 零 集 内 的 一 点 (xo Yo)s. f Gc, y) 2E 4i 9 
定义 是 : 
f(x,y) x? +y -R =0 (4-3) 
ABZ RH SAAS, y)， 就 得 到 一 个 非 零 的 结果 ( 因为 该 点 不 在 其 零 集 内 )。 如 果 
这 个 值 是 负 的 ， 则 知道 (xo yo) 这 个 点 是 在 曲线 内 部 ， 否 则 在 其 外 部 [4.3]。 这 种 内 部 /外 部 性 
质 对 所 有 可 用 多 项 式 表达 的 封 闲 曲 线 (以 及 曲面 ) 都 成 立 。 


4.1.3 线性 表达 式 


将 一 幅 用 和 矩阵 表示 的 图 像 展 开 成 向 量 形式 表示 。 例 如 所 示 的 一 幅 2 x 2 图 像 可 以 写成 向 量 
形式 f=[51064。 

5 10 

6 4 


4.1.4 概率 表示 


在 第 6 章 中 ， 将 把 一 幅 图 像 表 示 成 一 个 随机 过 程 的 输出 。 这 样 做 的 好 处 是 可 以 使 用 强 有 力 
的 数学 工具 ， 对 一 组 带 噪 声 的 图 像 进行 度量 ， 给 出 其 最 佳 版 本 的 图 像 。 


4.1.5 空域 频率 表示 


设想 用 眼睛 从 左 到 右 扫 描 图 4-1 中 的 两 幅 图 像 ， 并 确定 它们 中 哪 一 幅 亮度 变化 更 快 一 些 。 
显然 右边 一 幅 图 像 的 亮度 变化 更 快 一 些 。 可 以 把 亮度 变化 的 概念 ， 量 化 为 每 一 寸 纸 的 周期 数 
表示 。 一 个 周期 是 指 亮度 从 最 大 变 成 最 小 值 又 返回 到 最 大 值 的 过 程 。 当 然 ， 如 果 你 用 一 种 固 
定 的 速率 扫描 图 像 ， 在 你 眼睛 中 看 到 的 亮度 变化 用 每 秒 周期 数 (PRR) 表示 ， 是 与 所 扫 视 图 
像 内 容 的 空域 频率 成 正比 的 。 

一 幅 图 像 的 空域 频率 内 容 可 以 用 带 通 滤波 器 来 修改 。 例如 图 4-2 显 示 了 一 张 原 图 像 与 该 
图 像 经 过 低 通 滤波 器 过 滤 过 的 图 像 表示 。 该 滤波 器 允许 输入 中 的 低频 通过 并 输出 ， 而 高 频 
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被 阻隔 。 可 以 看 到 频率 响应 是 一 种 表征 锐利 度 的 方法 。 有 许多 高 频 成 分 的 图 像 看 起 来 会 比 


较 锐利 。 
20 20 
40 40 
60 60 
80 80 
100 100 
120 120 


60 80 100 120 20 40 60 80 100 120 
a) 


图 4-1 a) 一 幅 图 像 的 内 容 在 水 平方 向 有 较 低 的 频率 b) 一 幅 图 的 内 容 在 水 平方 向 有 较 高 的 频率 





图 4-2 (Ac) WRR. (A) 这 幅 图 像 的 一 幅 低频 图 像 表 示 。 右 图 只 在 水 平方 向 模糊 ， 这 种 模糊 
是 拍摄 图 像 时 摄像 机 移动 造成 的 。 注 意 水 平 边缘 仍然 是 锐利 的 
尽管 在 本 书 内 不 大 使 用 图 像 的 频 域 表示 ， 但 读者 需要 频 域 的 一 些 概念 。 
首先 ， 正 如 你 已 经 观察 到 的 ， 空 域 频率 是 随 方向 而 变化 的 。 图 4-1 在 水 平方 向 比 在 垂直 方 
各 有 更 快 的 变化 ， 更 高 的 频率 。 并 且 一 幅 图 像 一 般 包 含 许多 不 同 的 空域 频率 。 可 以 用 二 维 傅 
里 叶 变换 来 提取 图 像 的 空域 频率 成 分 : 


F(u,v)= ia y)exp(-i2n(ux + vy)) (4-4) 


其 中 K 是 一 个 适当 的 规范 常数 。 傅 里 叶 变 换 是 用 积分 方式 定义 的 ， 而 式 (4-4) 的 形式 只 
定义 在 二 维 离散 网 格 上 (如 ， 二 维 采样 图 像 )。 值 得 注意 的 是 ， 傅 里 叶 变 换 将 x 与 y 的 函数 转换 
成 另 一 一 种 函数 ， 它 的 变量 是 4 与 ，。 4 与 分别 对 应 x 与 ) 方 向 的 空域 频率 成 分 。 如 果 对 某 一 组 值 uo 
与 的 F(uo ,vo) 是 一 个 大 数 ， 那 么 在 该 特定 空域 频率 有 大 的 能 量 。 可 以 把 术语 “能 量 ” 理 解 为 
“所 涉及 的 像素 数目 ”或 “该 频率 成 分 是 否 明显 ”。 

第 二 个 结论 是 ， 空 域 频率 在 图 像 中 的 分 布 是 变化 的 ， 也 就 是 说 如 果 在 图 像 中 选 一 些 子 图 
像 ， 就 会 发 现 这 些 子 图 像 的 传 里 叶 变 换 有 明显 的 变化 。 
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第 三 ， 考 虑 一 下 式 (4-4) 中 的 计算 复杂 度 ， 一 幅 图 像 的 优 里 叶 变 换 是 一 个 空域 频率 u 与 
的 函数 ， 因 而 也 可 以 看 作 是 一 幅 图 像 ( 它 的 值 是 复数 ， 但 这 不 是 什么 问题 )。 如 果 一 幅 N XN 
的 图 像 ， 则 某 个 空域 频率 4、v 对 的 函数 值 ， 要 通过 对 所 有 x 与 y 对 的 函数 值 计算 求 和 得 到 ， 其 
复杂 度 为 NY。 她 果 频 域 采样 数 也 是 N x N， 则 计算 传 里 叶 变换 的 总 复杂 度 是 N'。 好 在 有 一 个 称 
为 快速 伟 里 叶 变 换 的 算法 ， 它 计算 每 对 4、v 的 函数 值 的 复杂 度 为 N log; N, 而 不 是 NW， 因 而 计 
算 量 明显 下 降 ， 因 此 有 时 某 些 计 算 在 频 域 中 要 快 一 些 。 

- 最 后 还 要 提 一 下 (空域 中 的 ) BRE mah BAUR UT 着 积 将 在 一 章 中 讨 
论 ， 而 这 种 等 价 关 系 将 在 5.8 节 讨论 。 


4.1.6 关系 表示 方法 〈 图 表示 法 ) | l 
图 是 描述 图 像 中 内 容 的 一 个 常用 方法 ， 这 将 在 第 12 章 进一步 讨论 
42 数字 图 像 


假设 图 像 经 过 采样 ， 也 就 是 说 x 与 ?只 取 离 散 的 整数 值 ， 同 时 假设 /是 量化 过 的 (FRR 
定 范围 内 的 整数 值 )。 PAE R T LAFE RATEN PEPLO TE BARR P, BA, AFER”. 


421 数字 图 像 的 生成 ” 


在 讨论 成 像 过 程 的 文献 中 所 到 许 参 种 成 像 设备 ， AGH SM (dissector)、 飞 点 扫描 
器 、 光 导 摄 像 管 (vidicons), EMRE (orthicon), AUTE (plumbicon). EH 
ABH (CCD)、 以 及 其 他 装置 [4.6，4.8]。 现 在 ECD 在 市 场 上 占 证 导 地 位 。 成 像 设备 在 它 
们 的 成 像 方法 以 及 所 生成 图 像 的 性 质 这 两 方面 都 不 相同 。 但 是 ， 所 有 这 些 装置 都 是 将 光 能 以 
相似 的 方式 转换 成 电压 。 由 于 本 章 的 目的 是 介绍 图 像 分 析 的 基本 概念 ， 因 此 我 们 只 选择 一 种 
装置 ， 即 CCD， 讨论 它 效 取 数 字 图 像 的 方法 。 参考 文献 中 有 更 精确 的 细节 ， 相 关 例 子 可 参 
考 [4, 19], 


用 硅 装 置 成 像 
在 CCD 的 表面 用 一 组 镜头 来 成 像 。 当 一 个 具有 适当 波长 的 光量 子 撞击 装置 的 特定 材料 时 ， 
一 个 带电 量子 就 产生 了 (形成 电子 - 空 穴 对 )。 由 于 该 材料 的 传导 率 很 低 ， 这 些 电 荷 趋向 于 停 
留 在 它们 产生 的 区 域 。 因 此 在 CCD 的 局 部 区 域内 的 电荷 * 可 以 用 下 式 很 好 地 近似 : 
t 


= f idt 

其 中 i 是 入 射 光 的 强度 ， 它 用 每 秒 光量 子 的 数目 度量 。 如 果 入 射 光 在 积分 时 间 中 是 常数 ， 
则 有 g = 并， 其 中 改称 为 帧 时 间 ，。 

ERE ERS 累加 的 ( 正 ) 电荷 被 扫描 电子 束 中 和 ， 这 种 中 和 过 程 产生 了 电流 ， 
经 放大 成 为 视频 信号 。 在 CCD 装 置 中 电荷 随 着 数字 钟 同步 地 从 一 个 单元 移 至 下 一 个 。 这 种 读 
出 电荷 的 机 制 ， 不 管 是 电子 束 还 是 电 有 有 相合 ， 都 是 经 过 精心 设计 的 ， 从 而 能 使 尽 可 能 多 的 电 
荷 被 置 90。 黑 加 电荷 从 0 开始 积分 。 电 荷 以 一 个 正比 于 局 部 光 强 的 速率 累积 ， 然 后 被 读 出 。 于 
是 在 一 点 度量 到 的 信号 既 与 该 点 的 光 强 成 正比 ， 又 与 读 操 作 之 间 的 时 间 间 隔 成 正比 。 

由 于 我 们 感 兴趣 的 只 是 光 强 度 ， 而 不 是 积分 时 间 ， 因 此 可 以 将 积分 时 间 的 影响 消除 掉 ， 
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做 法 是 使 它 在 图 像 的 每 一 处 都 相同 。 这 种 过 程 称 为 扫描， 要 求 对 设备 上 的 每 一 点 周期 性 地 重 
复 访问 ， 将 累积 的 电荷 清 零 。 一 个 可 能 是 最 直接 ， 并 且 最 常用 的 方法 是 一 个 从 上 到 下 ， 从 左 
到 右 的 扫描 过 程 ， 称 为 光栅 扫描 (raster scanning )， 见 图 4-3。 

















图 4-3 光栅 扫描 : 有 效 视频 用 直线 表示 ， 回 扫 用 虚线 表示 


如 图 4-3， 在 电子 束 装置 中 电子 束 在 回 扫 时 是 关闭 的 ， 回 扫 在 CCD 中 没有 物理 的 意义 ， 而 
只 是 为 了 兼容 性 。 图 上 所 示 是 表示 没有 隔行 扫描 的 最 简单 情况 。 

为 了 与 电子 束 装置 时 代 制 定 的 扫描 标准 保持 一 至 性， 在 电视 信号 的 每 个 扫描 行 的 末尾 有 
一 个 脉冲 称 为 消 隐 脉 冲 ， 这 个 脉冲 在 当时 是 为 关闭 电子 束 需要 的 时 间 设 置 的 。 电 荷 在 检测 器 
的 底部 被 移出 去 ， 在 顶部 电荷 又 开始 积累 。 因 为 电荷 在 所 有 时 间 内 在 检测 器 的 整个 表面 持续 
积累 ， 就 要 求 读 / 传 递 电荷 的 过 程 必 须 立 即 回 到 检测 器 的 顶部 并 又 开始 传递 过 程 。 扫 描 过 程 在 
一 秒 内 重复 多 次 。 在 美国 制式 中 扫描 一 帧 要 33.3 毫 秒 (在 欧洲 ， 每 帧 40 毫 秒 )。 

可 用 下 式 准确 计算 电子 束 移动 的 速度 : 
_1 秒 52528 
sop ^w 

欧洲 标准 是 625 线 ， 每 秒 25 帧 ， 其 速度 为 每 行 64 微 秒 。63.5 微 秒 中 不 仅 包括 图 形 信 号 ， 还 
包括 消 隐 周 期 ， 大 约 占 18% 的 行 时 间 。 将 这 部 分 时 间 减 去 ， 图 形 信息 的 时 间 是 每 行 52 微 秒 。 

图 4-4 表 示 的 是 电视 摄像 机 连续 扫描 三 行 的 输出 。 显 然 光栅 扫描 过 程 实质 上 是 将 图 像 从 一 
个 二 维 信号 转换 成 一 维 信号 的 过 程 ， 信 号 电压 是 时 间 的 函数 。 图 4-4 显 示 的 是 复合 视频 与 非 复 
合 视频 信号 ， 两 者 的 差别 取决 于 是 否 包含 同步 与 消 隐 时 间 脉 冲 。 

对 电视 信号 的 运作 来 说 ， 同 步 信 号 是 必 不 可 少 的 ， 但 对 我 们 理解 数字 图 像 处 理 来 说 ， 关 
系 并 不 大 。 而 消 隐 信号 是 光栅 扫描 系统 中 最 重要 的 定时 信号 。 消 隐 是 指 没有 视频 信号 的 时 间 ， 
有 两 个 不 同 的 消 隐 事件 : 水 平 消 隐 (发 生 在 每 行 的 末尾 ) 以 及 垂直 消 隐 (发 生 在 图 像 的 底部 )。 
在 数字 系统 中 两 个 消 隐 事 件 分 别 用 不 同 数字 电 平 脉冲 表示 。 通 过 将 特定 时 刻 的 负 脉冲 加 到 视 
频 信和 号 中 去 的 方法 合成 复合 视频 信号 。 

由 于 水 平 消 隐 表 示 了 新 一 行 视频 信号 的 开端 ， 则 我 们 的 注意 力 可 以 放 在 计算 机 是 如 何 从 
这 一 行 的 电压 信号 编码 上 获取 亮度 信息 的 。 
采样 过 程 

在 检测 器 上 的 电荷 通过 一 个 电阻 转换 成 电压 ， 并 随 之 放大 。 该 信号 转换 成 数字 表示 是 用 
模拟 到 数字 的 转换 器 实现 的 。 模 拟 到 数字 转换 器 同时 执行 两 个 功能 一 采样 和 量化 。 

采样 过 程 在 规定 的 时 刻度 量 视频 信号 。 在 每 个 离散 时 刻 对 视频 信号 进行 度量 ， 并 在 下 一 


= 63.5 微 秒 / 线 (4-5) 
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个 采样 时 刻 到 来 之 前 保持 该 数值 。 图 4-5 表 示 了 模拟 电压 信号 与 时 间 的 函数 关系 ， 图 4-6 则 显示 


了 该 电压 经 过 采样 之 后 的 情况 。 
图 形 ` 
4 一 一 信号 
/ 
消 隐 同步 信号 
复合 视频 
非 复合 视频 


图 4-4 电视 摄像 机 复合 与 非 复合 视频 输出 ， 电 压 是 时 间 的 函数 





图 4-5 视频 信号 ， 并 显示 了 采样 时 刻 


a 


图 4-6 采样 后 的 视频 信号 


DRE 

1g — WATT LRA RA ELMAR RE ORR. SIU, —HEER RIT FUE 
义 为 重 直 分 辩 奉 。 欧 洲 视频 每 幅 图 有 625 根 线 ， 垂 直 分 辩 率 比美 国 制式 要 高 。 所 以 用 户 觉得 
放电 视 的 图 像 比美 国 的 好 。 l 

5 PESEGX AR TE tT FR JE RAEE RR SRR SF. WAAL 
射线 胶片 的 分 辩 率 约 为 50 微 米 ， 这 意味 着 胶片 上 如 此 小 的 点 都 可 以 被 发 现 。 

计算 机 监视 器 有 许多 种 分 辩 率 标准 ， 但 计算 时 钟 率 的 方法 是 相同 的 。 
动态 范围 

采样 的 模拟 信号 用 一 个 重 化 过 程 转换 成 数字 信号 ， 该 过 程 显示 在 图 4-7 上 。 一 个 信号 的 数 
字 电 平 值 只 有 有 限 种 可 能 ， 它 用 输出 字 的 比特 数 来 定义 。 视 频 信号 经 常量 化 成 8 比特 的 精度 ， 
因而 一 个 信号 总 共 只 不 过 有 256 种 不 同 的 值 。 


图 4-7 采样 及 量化 后 的 视频 信号 


图 像 系 统 的 动态 范围 的 一 种 定义 是 表示 数字 的 比特 数 。 动 态 范围 的 另 一 种 定义 是 针对 输 
入 信号 的 ， 在 该 范围 内 摄像 机 能 正常 操作 。 两 种 定义 都 被 人 们 经 常 采用 ， 但 它们 的 含义 要 根 
据 其 使 用 的 环境 确定 。 

由 于 数字 图 像 是 用 光栅 扫描 及 采样 获取 的 ， 因 此 在 时 间 与 空间 上 是 一 一 对 应 的 。 也 就 是 
说 ， 如 采 我 们 说 采样 时 刻 ， 则 必须 将 其 表示 成 相对 于 图 像 信号 顶部 垂直 消 隐 时 刻 的 方式 ， 这 
种 时 间 关 系 与 屏幕 上 的 某 个 特定 位 置 一 一 对 应 。 
采样 定义 

如 有 果 对 一 个 模拟 信号 进行 采样 与 存储 ， 那 么 能 不 能 从 其 采样 信号 中 精确 重 构 出 原 信号 
WE? 答案 是 ， 精 确 重 构 要 求 采样 率 至 少 要 比 信号 中 的 最 高 频率 成 分 高 两 倍 。 

在 机 器 视觉 中 ， 通 常 并 不 十 分 关心 图 像 中 最 细微 细节 的 精确 重 构 ， 而 只 是 希望 从 中 提取 
出 我 们 所 需 的 信息 来 实现 手头 的 任务 。 

当 一 个 连续 值 模拟 信号 被 划分 成 离散 值 时 ， 术 语 量化 误差 用 来 描述 信息 丢失 。 量 化 误差 
经 常 可 以 从 图 像 中 (虚假 ) 轮 廊 中 看 出 来 ， 图 4-8 显 示 了 这 种 情况 。 





图 4-8 一 幅 人 脸 图 像 ， 在 左 图 用 16 级 灰 度 表示 ， 而 在 右 图 用 8 级 灰 度 (3 比特 ) 表 示 

















4.2.2 距离 图 像 的 生成 
生成 距离 图 像 有 两 种 主要 的 方式 一 使 用 立体 视觉 : 

与 结构 光 。 

立体 视觉 av 
许多 动物 有 两 只 眼睛 ， 并 且 从 人 们 的 经 验 也 知道 用 an 

两 个 视图 ， 可 以 提取 出 三 维 信息 。 在 几何 上 解释 这 种 现 abe 

象 并 不 困难 ( 见 图 4-9 ) 。 图 4-9 从 两 个 摄像 机 采集 的 图 像 中 可 
如 果 知道 摄像 机 之 间 的 距离 ， 每 个 摄像 机 的 观察 角 以 计算 任何 一 点 在 三 维 空间 的 


E (在 大 多 数 立 体 视觉 系统 中 ， 报 像 机 的 中 线 是 平行 设 位 置 ， 条 件 是 对 应 问题 能 够 解决 
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置 的 )， 并 且 能 够 度量 到 景物 中 特定 点 在 两 幅 图 像 中 的 位 置 ， 那 么 就 能 计算 到 景物 中 特定 点 的 
距离 ， 称 它 为 “距离 ”(range)。 如 果 在 一 般 性 的 情况 下 能 做 到 这 一 点 ， 也 就 是 说 ， 如 果 总 能 
确定 左 图 中 的 任何 点 与 右 图 像 中 哪 一 点 对 应 ， 那 么 对 应 问题 就 解决 了 。 

立体 视觉 中 经 常 使 用 的 一 个 简化 假设 是 ， 两 个 摄像 机 是 精确 平行 的 ， 并 且 认 为 如 果 一 个 
点 在 左 图 上 的 某 一 行 ， 那么 它 也 出 现在 右 图 土 相 同 的 “外 极 线 ”(epipolar line) 上 。 换 名 话说 ， 
一 条 外 极 线 将 一 个 点 与 它 的 对 应 点 联系 在 一 起 。 这 种 假设 可 以 使 对 应 问题 计算 的 复杂 度 明显 
降低 。 

参考 文献 中 有 许多 关于 对 应 问题 的 文章 ， 大 部 分 集中 在 点 匹配 上 ， 也 就 是 说 ， 在 第 二 幅 
图 的 外 极 线 上 找到 一 点 ， 与 第 一 幅 图 像 中 的 一 点 相似 ， 相 似 度 以 某 种 方式 度量 。 例 如 Bokil 与 
Khotanzad[4.5]， 扩 展 Marr 与 Poggio [4.27] 的 工作 ， 也 采用 外 极 线 假 设 。 他 们 通过 建立 灰 度 相 
FERE (GLCM) 的 方法 完成 点 匹配 。 左 图 与 右 图 的 像素 值 标 在 矩阵 的 左边 与 底部 9S。 列 在 第 
i 行 的 左 图 像素 值 与 列 在 第 j 列 的 右 图 像素 之 间 差 异 的 绝对 值 写 在 矩阵 的 第 i，j 元 素 内 。 

分 层 匹配 方法 可 以 使 对 应 问题 容易 些 [4.26] (两 个 低层 特征 ， 例 如 外 极 边 ， 要 形成 对 应 关 
系 ， 只 有 当 它 们 所 属 的 区 域 是 对 应 的 才 行 )。 

有 一 些 方法 在 三 维 空间 找 曲 线 ， 这 些 方 法 并 不 显 式 地 要 求 先 解决 对 应 问题 。 例 如 Cohen 与 
Wang[4.10，4.11] 求 最 佳 匹配 曲线 ， 而 不 是 逐个 点 。 

摄像 机 标定 [4.28，4.37] 对 立体 视觉 [4.31] 是 重要 的 ， 而 立体 视觉 技术 又 能 用 来 进行 摄像 机 
标定 ， 因 为 它 在 二 维 图 像 和 三 维 世 界 之 间 建 立 起 联系 。 人 们 在 确定 标定 摄像 机 所 需 的 对 应 最 
小 集 [4.1，4.23] 或 其 他 关系 [4.33，4 .34] 方 面 做 了 许多 工作 。 

从 一 组 (来自 同一 物体 的 ) 对 应 特征 就 可 计算 一 个 变换 ， .从 而 确定 景物 中 一 个 物体 的 位 
姿 (pose), 这 是 指 物体 在 三 维 空 间 中 的 位 置 与 朝向 ， 在 同一 场景 中 可 以 有 不 止 一 一 组 对 应 特征 
(4.20, 4.38]. 

立体 视觉 有 许多 不 同 种 类 的 应 用 [4.13]， 包括 如 何 从 全 景 摄像 机 中 获取 体 视 信息 。 

第 11 章 在 学 习 了 参数 变换 的 概念 如 何 有 助 于 解决 对 应 问题 之 后 ， 会 进一步 讨论 立体 视觉 
技术 。 
结构 光照 明 noo g o 

将 立体 视觉 中 的 一 个 摄像 机 用 一 一 个 光源 Tm 代替 ， 可 以 避免 对 
应 问题 。 这 样 一 来 这 种 方法 就 不 再 是 立体 视觉 了 ， 而 一 般 称 
为 结构 光照 明 (structured illumination )。 要 理解 它 是 如 何 工 
作 的 ， 可 以 回顾 一 下 图 4-9， 并 把 其 中 一 台 摄 像 机 用 一 个 投影 
器 取代 。 该 投影 器 向 景物 中 投射 一 条 很 窗 但 很 亮 的 光 ， 如 图 
4-10 所 示 。 其 中 从 投影 器 投射 的 角度 9 已 知 ， 而 另 一 角度 9 是 
在 图 像 中 检测 到 亮点 之 后 ， 根 据 其 像素 位 置 ， 利 用 像素 位 置 
与 角度 之 间 关 系 计算 出 来 的 。 再 加 上 投影 器 到 摄像 机 之 间 的 
距离 4 这 个 已 知 条 件 ， 就 可 解 出 图 4-10 中 的 三 角 关系 ， 而 景物 图 4-10 结构 光照 明 
中 亮点 到 摄像 机 的 距离 也 就 可 以 算出 来 。 

图 像 的 描述 问题 可 能 会 对 这 种 方法 有 影响 。 当 用 结构 光 去 照射 有 镜面 反射 现象 的 场景 时 





日 。、 原 书 是 底部 与 左边 。 一 一 译 者 注 
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会 有 些 问 题 ， 比 如 照射 金属 表面 就 会 出 现 这 种 现象 。 此 时 可 能 会 没有 足够 强 的 反射 出 现 或 太 
多 强 反 射出 现 ， 偏 振 光 滤波 器 可 能 会 有 帮助 [4.29] 。 

在 本 书 讨 论 有 关 从 X 获 取 形 状 信息 的 章节 (9A.2 节 ) 中 会 进一步 讨论 使 用 结构 光照 明 的 
技术 。 
4.3 ARERIA 

首先 将 亮度 定 成 两 个 空间 变量 的 函数 ，f (x, y) 是 点 (x, yy) 处 的 亮度 ; x yER, FARRER. 


—> 度量 系统 (D) — gay) Se 人 


用 一 个 度量 系统 度量 图 像 会 使 输入 图 像 质量 失真 (退化 )， 得 到 一 个 度量 后 的 图 像 
g(x,y) = Df Gc, y) (4-6) 
其 中 DD 是 某 种 退化 函数 ， 一 般 会 包含 某 些 随机 噪声 过 程 ， 在 一 种 我 们 比较 感 兴趣 的 退化 现 
象 中 噪声 是 添加 性 的 ， 并 且 独 立 于 信号 ， 此 时 g 可 以 写成 : 
s(x,y)= f f fla, Phx- a, y - Bdodp + n(x, y) (4-7) 


这 是 一 个 卷 积 积分 。 如 果 任 何 一 个 退化 操作 DD 是 线性 以 及 移 不 变 的 (在 空间 任何 地 方 操 作 
都 一 样 )， 那 么 可 以 证 明 它 就 能 以 式 (4-7) 这 样 的 卷 积 进行 计算 。 以 下 面 一 个 一 维 的 情况 为 
Bl (只 是 为 了 方便 ) 来 证 明 这 一 点 , 推广 到 二 维 情况 是 很 自然 的 : 首先 观察 在 点 x 计算 的 函数 /， 
可 以 写成 : 

fG) = [FAE (4-8) 


其 中 6(7) 表 示 delta (WERA) 函数 ， 它 的 定义 是 : 当 其 变量 "为 非 零 时 ， 该 函数 值 为 
4; 而 当 变量 "为 零 时 ， 其 值 为 无 穷 大 ， 并 且 对 该 函数 在 - 到 +% 积 分， 其 积分 值 为 1。 式 
(4-8) 看 起 来 似乎 并 没有 什么 奥妙 之 处 ， 它 只 是 定义 了 一 个 函数 的 delta 函 数 采样 9。 进一步 假 
设 函 数 / 被 某 种 操作 引起 退化 ， 从 而 改变 了 每 一 点 xz 的 函数 值 。 则 有 


DF) = of franse- ana) (4-9) 

如 果 D 是 线性 运算 ， 那 么 可 以 变换 式 (4-9) 中 操作 符 D 与 积分 符号 的 次 序 ， 得 到 : 

DFC) = DF -rar (4-10) 

DD 是 作用 在 x 的 函数 上 的 ， 而 不 是 x* 的 函数 。 对 D 而 言 任何 与 +* 有 关 的 都 是 常数 ， 所 以 可 以 
Hef (x') 提 到 该 操作 运算 之 外 ， 得 到 : 


”但 其 作用 会 逐渐 显现 出 来 。 一 一 译 者 注 
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DCf(x)) = ff) DEG - x) dx’ (4-11) 


此 式 表明 DD 可 能 取决 于 ， 或 取决 于 x 与 x' 的 差 值 ， 总 而 言 之 它 是 只 对 脉冲 函数 应 用 的 退化 
运算 。 因 此 /的 任何 线性 退化 可 以 写成 / 与 一 个 函数 乘积 的 积分 ， 该 函数 是 对 delta 函 数 的 退化 。 
由 于 delta 函 数 的 幅度 为 无 穷 大 、 宽 度 为 零 ， 在 一 维 时 称 其 为 脉冲 、 而 D(6(x 一 x')) 称 为 脉冲 响 
Æ (impulse response)， 而 二 维 delta 函 数 是 一 个 亮点 ， 所 以 称 应 用 它 带 来 的 退化 为 点 扩散 未 数 
(point spread function)。 脉 冲 响应 与 点 扩散 函数 实际 上 是 一 回 事 ， 只 是 用 处 不 同 。 

由 于 脉冲 响应 可 能 取决 于 x 与 x 两 者 ， 为 了 方便 引入 一 个 新 的 表示 : 

h(x,x') = D(6(x - x^) (4-12) 

如 果 再 加 上 另 一 种 假设 ， 则 可 得 到 一 个 更 简单 的 表示 式 : 设 D 与 无关， 而 只 取决 于 x 与 x' 
的 差 ， 在 此 种 情况 可 以 写成 h(x, x!) = hax), R (4-11) 可 简化 成 : 


B(x) = DOF) = {fC hx -x dx! (4-13) 


此 式 中 引入 了 8 ， 它 是 系统 的 输出 。 这 就 是 卷 积 积分 。 有 许多 理由 说 明 这 个 积分 是 很 重要 
的 ,其 中 包括 它 可 以 用 快速 侍 里 叶 变 换 (FFT) 进行 计算 。 更 重要 的 一 点 是 ， 图 像 的 任何 退化 
(只 要 它 是 线性 与 移 不 变 的 )， 都 可 用 这 一 类 的 积分 计算 。 


4.4 将 图 像 看 作 表面 


在 这 一 节 讨论 将 图 像 看 作 三 维 空间 的 一 个 表面 的 问题 。 用 这 种 角度 看 待 图 像 可 以 把 图 像 
的 属性 看 成 (表面 点 的 ) 高 度 。 


4.4.1 等 亮度 线 


RS (x, y) 的 值 看 作 空间 的 一 个 表面 ， 表 示 成 z== fon y)， 那 么 可 用 有 序 的 三 元 素 [x, y, f(x， 
Y 描述 表面 。 对 每 一 点 (x, y) 在 第 3 维 有 一 对 应 值 。 很 重要 一 点 在 于 对 任何 (x, y) 点 只 有 一 个 z 值 
(也 就 是 f (x, y) 是 一 个 函数 )。 因 此 z 是 一 个 表面 。 

现在 考虑 满足 f (x, y)=c (CHAR) 的 所 有 点 组 成 的 点 集 。 如 果 f 表示 亮度 ， 那 么 这 个 点 
集中 的 点 具有 相同 的 亮度 ， 因 此 称 其 为 “等 亮度 线 ”(isophote )。 

定理 

在 图 像 的 任何 点 (x, y), 通过 该 点 的 等 亮度 线 与 该 点 的 梯度 相 垂直 。” 
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下 面 将 空间 一 表面 z(x, y) 看 成 一 座 山 (4-11). dmi HL iX RE LT BOR S SE, EE 
的 线 是 等 海拔 高 度 线 。 但 是 如 果 把 亮度 看 作 海拔 高 度 ， 那 么 这 些 轮廓 线 就 是 等 亮度 线 。 站 在 
山上 的 某 点 ， 治 其 梯度 方向 观望 ， 那么 你 所 看 到 的 方向 就 是 上 升 最 陡峭 的 方向 。 


日 ”梯度 向 量 在 式 2.11 中 定义 ， 并 将 在 式 5.22 中 详细 描述 。 








梯度 方向 


图 4-11 海拔 图 上 的 轮廓 与 等 亮度 线 等 价 ， 该 点 的 梯度 向 量 与 该 点 的 等 亮度 线 垂直 


此 时 车 你 朝 你 左边 或 右边 看 ， 这 就 是 沿 等 亮度 线 方向 看 。 要 提醒 的 是 梯度 方向 是 该 点 最 
陡峭 的 方向 ， 但 不 一 定 指向 顶峰 。 
假设 我 们 在 肤 山 时， 每 一 小 步 都 是 锐 梯 度 方 向 走 的， 那么 在 状 线 上 会 发 生 什么 ? 怎样 知 
道 你 处 于 次 线 ?能 否 用 数学 描述 这 个 过 程 ? 
假设 我 们 沿 梯度 方向 迈步 ， 在 到 达 闪 线 之 前 每 一 步 有 大 致 相同 的 方向 ， 然 而 到 达 浴 线 之 
后 ， 方 向 会 发 生 显著 变化 。 所 以 对 疹 线 的 一 个 有 用 的 定义 是 : 疮 线 是 由 这 样 一 组 点 组 成 ， 在 
这 些 点 梯度 方向 的 变化 率 是 局 部 最 大 值 。 也 就 是 说 ， 需 要 找 38/9v 取 最 大 值 的 点 ， 其 中 v 表 示 
梯度 方向 ， 而 它 是 沿 梯度 方向 的 求 导 。 在 笛 卡尔 坐标 中 ， 
90 _ FL bo -ff fh 
av 加 Cf? + fy? 


Maintz 等 人 [4.24] 曾 指出 ， 该 式 基 本 上 与 一 个 略为 简单 的 式 子 等 价 ， 该 式 子 只 是 基于 亮度 
治 "方向 的 二 阶 导数 ， 这 就 导出 要 将 下 式 最 大 化 
f fs - M fs + fe by 
(fr +f) 


式 中 下 标 表示 对 该 变量 的 二 阶 偏 导数 。 在 三 维 数据 中 ， 次 的 概念 是 相同 的 ， 只 是 难以 可 
视 化 。 此 时 梯度 是 一 个 三 维 向 量 ， 指 向 增加 密度 的 方向 。 等 亮度 点 集 就 不 再 是 曲线 ， 而 是 曲 
面 。Maintz 等 人 在 [4.24] 中 同样 讨论 了 三 维 数据 中 疹 的 概念 。 需 要 的 读者 可 参考 该 文章 。 


44.3 二 值 图 像 与 中 轴 


中 轴 概 念 用 来 描述 图 像 内 的 一 个 区 域 ， 在 二 值 图 像 中 梯度 向 量 已 经 没 用 了 ， 因 为 它 几 平 
到 处 为 零 ， 因 此 用 中 轴 是 很 有 效 的 。 在 区 域 中 有 这 样 性 质 的 一 些 点 ， 在 这 些 点 上 能 够 画 出 一 
个 与 区 域 的 边界 至 少 有 两 个 切 点 的 圆 ， 所 有 这 些 圆 的 中 心 组 成 的 点 集 就 是 中 轴 。 

中 轴 很 容易 定义 ， 但 很 难 计算 。 这 将 在 第 9 章 引出 数学 形态 学 运算 与 距离 变换 后 再 进行 讨论 。 

通过 使 用 图 像 的 尺度 空间 表示 可 以 将 次 与 中 轴 联 系 起 来 ， 这 将 在 9.7.1 节 讨论 。 


45 邻 域 关 系 


邻 域 的 定义 有 多 种 方式 ， 但 最 常用 与 最 直观 的 方法 是 4 邻 域 或 8 邻 域 ，4 邻 域 是 指 共享 一 条 
边 的 两 个 点 有 相 邻 关系 ，8 邻 域 则 是 指 共享 一 条 边 或 一 个 顶点 的 两 个 点 有 相 邻 关系 。 一 个 像 


(4-14) 


(4-15) 





日 ”将 每 个 点 看 作 一 个 正方 形 。 译 者 注 
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素 的 邻 域 是 指 与 其 有 相 邻 关系 的 所 有 点 组 成 的 集合 。 一 个 中 心 像素 的 4 邻 域 如 图 4-12 所 示 。 一 

个 点 s 的 邻 域 用 NX, 表示 ， 下 面 将 讨论 对 点 集 、 点 的 邻 域 以 及 邻 域 集 的 运 

算 。 例 如 令 4 与 6 是 图 像 中 的 点 集 ， 而 * 是 4 中 一 个 点 ， 则 可 以 定义 4 集 与 : 

B 集 通过 邻 域 关系 X, 进 行 某 种 运算 ， 得 到 一 个 新 的 点 集 ， 例 如 E Re 
O&(À) = [Jn B) 域 用 阴影 标 出 


SEA 
文章 [4.15] 把 上 式 计算 得 到 的 结果 称 为 4 集 相对 B 集 的 流域 (aura)， 它 实质 上 是 4 集中 部 分 
点 的 集合 ， 这 些 点 与 8 中 的 点 有 相 邻 关系 ， 至 于 “ 相 邻 ”的 概念 由 所 关注 的 问题 定义 。 图 
4-13a 显 示 了 一 幅 图 像 包含 一 个 集 4 (阴影 像素 的 集合 )， 一 个 B 集 (空白 像素 的 集合 ) ; 图 
4-13b 表 示 相 邻 关系 的 定义 ; 图 4-13c 则 显示 了 B 集 在 4 集 的 流域 [4.15]。 当 讨论 到 数学 形态 学 运 
算 时 会 涉及 更 多 类 似 的 关系 运算 。 









a) b) c) 


图 4-13 a) AR (阴影 像素 ) SBR (空白 像素 ) ; b) 邻 域 关系 ， 阴 影像 素 是 中 心 像素 的 邻 域 ; 
c) a) 图 中 空白 像素 集 在 阴影 像素 集中 的 流域 ， 用 黑色 标注 。 在 该 例 中 用 4 邻 域 作 为 邻 域 
关系 的 定义 ， 但 是 并 不 一 定 要 求 相 邻 者 必须 在 空间 毗邻 


题 外 话 : 连通 性 难题 

在 左 图 中 前 景 像素 是 黑色 的 ， 背 景 像素 是 白色 的 。 图 像 中 的 前 景 是 一 个 环 ， 多 半 是 一 个 
垫圈 的 低 分 辩 率 图 像 。 这 个 环 是 封闭 的 吗 ? 也 就 是 说 能 否 从 一 点 开始 ， 
用 已 学 过 的 邻 域 定义 ， 绕 着 环 走 ， 不 走 回头 步 ， 从 一 个 像素 过 滤 到 一 " 
个 连通 的 邻 域 呢 ? (在 这 里 用 路 径 来 定义 连通 性 。) 如 果 能 够 绕 这 个 区 ) 
域 走 下 去 ， 就 说 该 区 域 是 封闭 的 。 我 们 已 学 过 4 邻 域 与 8 邻 域 。 若 使 用 4 
邻 域 关 系 ， 这 个 区 域 是 封闭 的 吗 ? 如 果 你 说 不 ， 就 对 了 ! 在 4 邻 域 系统 p 
中 ,无 法 从 像素 A 过 渡 到 像素 B。 如 果 它 是 不 封闭 的 它 就 应 该 是 开放 的 ， 
对 不 对 ? 如 果 它 是 开放 的 ， 那 么 其 内 部 与 外 部 应 该 是 连通 的 ， 对 不 对 ? 但 是 使 用 4 邻 域 关 系 的 
定义 ， 其 内 部 与 外 部 却 是 分 开 的 区 域 。 

看 来 我 们 只 好 放弃 4 邻 域 定义 了 ， 因 为 它 导致 一 个 互相 矛盾 的 结论 。 那 么 试 试 8 邻 域 关系 ， 
此 时 前 景 是 封闭 的 对 吗 ? (对 ! ) 但 是 内 部 与 外 部 区 域 却 也 是 连通 的 ! 这 怎么 可 能 呢 ? 如 果 
该 区 域 是 封闭 的 ， 它 的 内 部 与 外 部 (从 逻辑 上 讲 ) 必定 是 分 开 的 。 所 以 8 邻 域 也 行 不 通 。 

对 这 个 特定 的 难题 ， 有 一 个 解决 办 法 ， 至 少 是 部 分 的 解决 办 法 ， 这 就 是 用 8 邻 域 或 4 邻 域 
中 的 一 个 作为 前 景 连通 性 的 定义 ， 而 另 一 个 给 背景 用 。 

这 种 修补 方法 对 二 值 图 像 是 适用 的 ， 但 是 对 有 不 止 两 个 亮度 级 的 图 像 来 说 ， 这 种 不 一 至 
性 又 会 出 现 。 举 这 个 例子 的 目的 ， 是 要 说 明 在 数字 图 像 中 ， 直 觉 并 不 总 是 对 的 。 例 如 有 许多 

相似 问题 的 其 他 例子 ， 是 与 区 域 周 长 的 度量 方法 有 关 的 。 要 警惕 会 有 离奇 的 事 发 生 ， 并 记 住 
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直觉 并 不 总 是 正确 的 。 
在 4A.1 节 中 讨论 的 六 角形 表示 解决 了 连通 性 难题 ， 它 可 能 还 能 解决 其 他 问题 。 


作业 4.1 处 理 与 观察 距离 图 像 


这 个 习题 的 目的 是 ， 使 你 习惯 于 使 用 计算 机 以 及 这 门 课 需要 的 软件 包 。 

1) 打开 CDROM 的 “ Image” 目 录 (Unix 用 户 打 开 系 统 盘 ) 在 “leadhole” 子 目录 你 会 看 
到 一 些 图 像 ， 名 字 为 “site…” 用 适当 的 工具 来 观看 这 些 图 像 ， 并 将 其 中 你 喜欢 的 拷贝 到 你 的 
目录 中 ， 这 些 图 像 都 不 大 ， 不 会 占 太 多 空间 的 。 

2) 对 所 拷贝 的 每 一 幅 图 像 ， 运行 ifs viewpoint (为 了 得 到 这 变量 , HA “ifs viewpoint -h” )。 
这 个 程序 接受 距离 图 像 为 输入 ， 并 人 允许 用 户 能 从 直 对 的 视角 以 外 的 视角 来 观察 这 些 图 像 。 当 
从 别 的 角度 看 时 ， 你 可 看 到 距离 图 像 是 三 维 的 。 为 了 选择 视点 的 运动 ， 对 “enter transform" 
做 一 个 类 似 于 下 列 命令 行 的 回答 : 

movex — 10 movey 10 roll 30 pitch 0 yaw 5 movex 3 movez 10 end 

3) 如 果 你 愿意 ， 你 可 以 输入 这 些 到 相继 行 上 。 它 在 得 到 “end” 之 前 会 持续 地 读 运动 命令 。 
roll (WR). pitch (倾斜 ) 和 yaw (MH) 是 旋转 的 命令 ， 它 们 的 变量 单位 是 度 ， 继 续 玩 到 你 
能 回答 以 下 问题 时 为 止 。 

a) movex 是 否 移动 视点 或 图 像 ， 在 什么 方向 〈 行 或 列 ) ? 

b) roll 是 绕 z 轴 转 ，pitch 是 绕 什么 轴 旋 转 ? 

4) 取 一 幅 图 人像， 产生 6 幅 新 图 像 ， 分 别 对 应 不 同 的 roll 角 (0、30、60、90、120 与 150 度 )。 
有 没有 将 其 中 某 个 转 出 图 像 外 ?使 用 一 个 变换 来 弥补 这 个 问题 (提示: 可 以 考虑 用 一 移动 命 
令 把 原 图 移 至 图 像 的 中 心 再 旋转 它 )。 使 用 程序 ifs stack 把 这 六 幅 图 像 转换 成 一 个 三 维 图 像 。 
如 果 你 使 用 Unix 则 用 imp 来 观察 图 像 ， 并 且 演 示 如 何 用 imp 像 演 电影 一 样 来 旋转 物体 。( 提示 : 
使 用 “volume” 按 钮 )。 如 果 你 使 用 PC， 你 可 以 使 用 ifs2avi。AVI 图 像 可 以 用 许多 种 PC 程序 观 
看 。 对 .avi 图 像 的 图 符 连续 快速 按 两 次 就 可 实现 。 

5) 下 面 学 习 如 何 使 用 程序 ifs spin。9 演 示 你 所 生成 的 复杂 的 电影 。 注 意 :' ifs spin 实 际 上 
是 运行 viewpoint，Unix 版 会 产生 相当 多 的 暂 存 文件 ， 完 成 后 它 会 自动 清除 ， 只 是 需要 有 暂 存 
的 盘 空 间 。 

写 下 你 的 结果 ， 并 向 你 的 导师 演示 你 的 结果 。 

提示 : 在 你 的 CDROM 的 “leadhole” 目 录 中 你 会 找到 一 幅 名 叫 spinout.avi 的 图 像 ， 你 所 
生成 的 图 像 应 该 大 体 上 与 它 的 输出 相像 。 


4.6 结论 


在 本 章 ， 讨 论 了 图 像 以 及 图 像 中 信息 的 各 种 表示 法 ， 以 便 在 后 续 章 节 我 们 会 使 用 这 些 表 
示 方法 编制 算法 来 提取 信息 ， 并 对 信息 进行 分 类 。 


4.7 术语 


对 应 问题 correspondence problem 


怠 ” 要 学 会 如 何 使 用 [FS 程序 ， 可 以 输入 program_name-h 或 阅读 手册 。 
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动态 范 dynamic range 
函数 表 式 functional representation 
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专题 4A 图像 表示 方法 
4A.1 采样 的 变种 : 六 角形 像素 


在 一 些 文章 中 [4.36]， 提 到 使 用 六 边 形 结构 的 像素 数组 的 成 像 传感器 〈 见 图 4-14) ， 当 一 
堆 互相 相 切 的 圆 在 互相 挤 压 条 件 下 ， 发 生变 形 时 六 边 形 是 其 最 小 能 量 解 。 蜂 窝 是 自然 界 这 类 
结构 中 最 著名 的 ， 也 有 一 些 别 的 例子 ， 包 括 人 视网膜 中 的 视 锥 细胞 。 


56 图 4-14 AGATE LARA ARERR. Hu 与 v 的 方向 是 不 正 交 的 ， 
37 u 与 v 的 单位 向 量 用 于 描述 这 个 坐标 系统 


传统 的 电子 成 像 传感器 被 安排 成 矩形 数组 状 ， 这 主要 是 因为 电子 束 需要 以 光栅 扫描 方式 
扫描 ， 而 后 出 现 的 电荷 耦合 器 件 安排 成 矩形 结构 也 较 方便 。 然 而 矩形 数组 在 定义 邻 域 关 系 时 
有 歧义 性 。 而 在 六 边 形 连 通 分 析 中 却 没 有 连通 疑 题 : 每 个 像素 正好 有 六 个 近邻 ， 无 论 前 景 ， 
背景 或 别 的 彩色 。 
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符号 表示 
TER? 中 的 一 点 用 p=wz+vy 表 示 ， 其 中 粗 体 表 示 单 位 向 量 ， 非 粗 体 的 字母 表示 相应 幅 值 ， 在 
讨论 两 个 或 多 个 点 的 情况 时 ， 对 不 同 的 向 量 使 用 下 标 ， 其 相应 分 量 也 用 相同 下 标 ， 例 如 : 
P=UuUtviv。 此 外 ， 点 还 可 用 列 向 量 形式 表示 : 
P=[u,,v,]" (4-16) 
在 某 种 情况 下 ， 我 们 关心 点 在 笛 卡 尔 表 示 中 的 位 置 ， 即 [x, yj7， 在 此 种 情况 下 也 会 采用 下 
bn. PROP; =[E vi 2px y;]， 表 示 对 应 的 单位 向 量 u,v, x, y 的 值 。 


5| 31 
任何 一 个 有 序 对 [u,v] 只 对 应 一 对 [x, y]。 
WERA: 
使 用 简单 的 三 角 关系 ， 并 且 注 意 cos 60° 的 值 是 1/2， 则 有 : 
ut 和 y= (4-17) 
引 理 2 
任何 第 卡 尔 坐 标 有 序 对 [x, y] 与 一 对 [x, v] 唯 一 对 应 。 
WEAR: 
解 式 (4-17) 得 
=x- =2-} 4-18 
u-x 48 和 275 ( ) 


—# I8] Eb, b, b, PAR p] Be AOE, REN BS EE eT A 3c RD SRD, b,, "b, 
HUE PELA, dnb, 是 正 交 归 一 的 (Bb."h)=0 当 i j, DAR bb; 21) 则 它们 构成 一 组 基 的 条 件 是 
充分 的 。 但 是 正 交 归 一 并 不 是 必要 条 件 ，z 与 "组 成 一 组 基 ， 它 们 是 归 一 的 ， 但 不 正 交 。 这 种 
非 正 交 性 在 式 (4-19) 中 可 以 看 出 来 ， 因 为 &，?" 在 笛 卡 尔 坐 标 中 的 内 积 并 不 为 零 。 

1 


2xys-lga2 3. BELL ry 2 | -1 4-19 
本 "cA 所 以 u"v = [10] 5 -> ( ) 
2 
定理 
[n] Su Sve RR? 中 的 基 
证 阴 : 


由 于 x 与 ?显然 是 路 的 一 组 基 ， 则 可 以 将 踢 的 任 一 点 p 写 成 
p=[x, yj =xxz+yy， 然 而 从 式 (4-19) 有 
_ Qv-u) _ Y 2y 
p=xu+y B (x Xe 
于 是 RR 中 任何 一 点 可 以 写成 4 与 的 加 权 和 。 证 毕 。 
鉴别 一 个 像素 的 邻 域 
给 定 一 个 像素 的 &、?* 坐 标 (假设 为 整数 ) 其 近邻 的 坐标 在 图 4-15 中 表示 。 可 以 使 用 下 列 
循环 来 有 效 地 存 取 像 素 (u,v) 的 所 有 6 个 近邻 。 
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注意 : 无 论 中 心 像素 出 现在 奇数 或 偶数 行 中 ， 循 环 中 并 不 要 求 使 用 “这 ”语句 。 


ou={ —1,—1,0,1,1,0) 

0v-(0,1,1,0, — 1,— 1) 

for i=1 to 6 
nu-ucou[i] 
nv=v+ov{i] ` l 
value=image[nu][nv] 


我 们 发 现 这 种 访 间 一 个 像素 的 近邻 的 方法 也 适用 于 和 矩 er 
形 网 格 的 8 邻 域 定义 ， 而 且 比 双 索 引 循环 的 方法 更 有 效 。 
for i=-1to1 图 4-15 一 个 像素 的 邻 域 是 绝对 对 称 
for j=-1tol 的 ， AARRE REESE 
if((i!=0)or(j!=0)) 
value=image[u+i][v+/] 


注意 : ou 与 ov 是 相互 成 循环 的 。 
4A.2 其 他 形式 的 图 像 表示 
1 
到 目前 为 止 ,我 们 只 是 用 亮度 来 表示 图 像 的 属性 。 当 然 我 们 曾 提 到 27 维 图 像 ， 它 表示 距 


离 是 z 与 ?的 函数 。 然 而 ， 还 可 以 计算 一 些 其 他 量 ， 作 为 图 像 的 属性 。 曲 率 就 是 其 中 之 一 。 


4A.2.1 曲率 
. 1. 
在 图 像 中 的 每 一 点 可 以 计算 局 部 曲率 ， 对 27 维 图 像 (表面 ) 曲率 无 法 用 单个 标量 确切 


描述 ， 而 以 采用 矩阵 形式 为 好 。( 想 要 了 解 这 方面 细节 的 读者 可 以 参考 doCarmo 的 书 [4.12] 或 
其 他 微分 几何 的 书籍 。) 


-1 


ETI san 





F G| |f & 
其 中 
ente(2) re ens (85) 
y dy 
(5) fnr e) fne (25) fh 
而 最 后 得 到 : 


oz ? oz ? 
8^) a) 
ERK S KE SEEK REA, TAARE EER e 


在 许多 视觉 应 用 中 ， 需 要 对 曲率 有 一 个 标量 描述 ， 并 且 与 视点 无 关 ， 如 此 定义 的 标量 表 
示 有 两 种 。 平 均 曲 率 
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1 1 
K,, os uie, EE une, TE (4-21) 


以 及 高 斯 曲率 
K; = K,K, = det(K) (4-22) 
由 于 高 斯 曲率 是 乘积 ， 因 此 只 要 两 个 主 曲率 中 任 一 个 为 零 ， 它 的 值 就 为 零 。 由 于 这 种 情 
况 在 工业 零件 中 经 常 出 现 ， 因 此 我 们 很 少 使 用 高 斯 曲率 。 
4A.2.2 纹理 
纹理 这 个 词 似 乎 每 个 人 都 知道 ， 但 是 它 却 设 有 确切 的 定义 。 对 纹理 至 少 有 两 种 定义 一 一 
“自然 ”纹理 ， 它 用 随机 过 程 描述 最 确 当 ; “规则 ”纹理 ， 它 用 频 域 表 达 式 最 合适 〈 见 图 416)。 





a) b) c) 
图 4-16 a) 羊毛 纹理 的 例子 [4.2] b) 树 皮 纹理 的 例子 [4.2] c) 自然 的 与 规则 纹理 的 比较 [4.4] 


Haralick 和 Shapiro[4.18] 对 纹理 的 描述 是 “其 包含 一 种 或 多 种 以 下 属性 : HEHE. HKG. CE 
请 度 、 颗 粒状 、 随 机 性 、 线 状 条 纹 或 有 斑纹 、 不 规则 或 丘 状 起 伏 " 。 由 于 像素 的 组 合 是 不 同 的 ， 
所 以 我 们 可 以 采用 很 多 特征 ， 其 中 包括 功率 谱 的 矩 [4.4, 4.14]， 分 形 维 [8.12]， 复 倒 谱 [4.35]。 
所 谓 的 纹理 分 割 ， 即 首先 用 包含 空域 以 及 空域 频 域 的 信息 来 描述 图 像 ， 然 而 用 这 些 信息 检测 
有 具 有 相同 特征 的 区 域 [4.7，4.14，4.16]。 

一 些 文章 提 到 纹理 可 以 用 自 相似 (分形) 过 程 有 效 表示 ， 其 中 最 初 的 文章 出 现在 
Mandelbrot 与 Yan Ness[4.25] 的 经 典 著作 。 而 Kaplan 与 Kuo[4.22] 则 指出 实际 纹理 并 不 一 定 具 
备 在 不 同 尺度 下 保持 相同 纹理 的 性 质 ， 因 而 自 相 似 的 概念 应 作 一 些 修改 。 


作业 4.A1 


假设 图 像 f (x, y) FAS Gc, y)= x*/4 一 x wy 描述。 对 点 x=1，y=2 来 说 ， 以 下 式 子 中 哪 一 个 是 穿 
过 该 点 指向 沿 等 亮度 线 的 方向 的 单位 向量 ? 
2 17 -1 3] 
A M E, Via 247° 
e cm d e d is M 
i. af " 2 1 
Mie c d)[-2 2 1 
[cts $ (d)[ 4] ol Js ad 
作业 4.A2 
想像 你 站 在 一 个 表面 上 ， 你 无 法 看 到 整个 表面 ， 但 能 看 到 它 的 大 部 分 。 如 果 你 度量 所 
有 你 能 见 到 的 点 的 曲率 ， 你 发 现 主 曲 率 之 一 为 零 。 而 另 一 个 主 曲 率 沿 一 个 方向 单调 变化 。 
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你 无 法 精确 地 度量 ， 但 你 推测 沿 这 个 方向 的 曲率 变化 是 线性 的 ， 试 问 你 站 在 什么 类 型 的 表 
面 上 ? 
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第 5 章 ”线性 算 子 与 核算 子 


Now I see through a glass darkly, but then, face to face. 
Paral of Tarsus 
在 这 一 章 ， 我们 将 研究 图 像 中 的 线性 算 子 ， 首 先是 微分 算 子 ， 这 可 能 是 线性 算 子 中 最 常 
见 的 一 类 算 子 。 然 后 将 讨论 扩大 到 边缘 检测 ， 同 时 考虑 各 种 实现 边缘 检测 的 方法 。 
5.1 什么 是 线性 算 子 


假定 D 是 一 个 作用 在 图 像 / 上 的 算 子 ， 并 生成 图 像 48。 如 果 D 满 足 


D(of, + Bf.) = aDC) + BDC) (5-1) 
KB. f RARER, Bo. Bei, HARD “REBT”. 
思考 实验 
考虑 图 像 算 子 D 


g=D(f)=aft+b abER 


那么 D 是 一 个 线性 算 子 么 ? 

我 们 建议 你 在 看 解答 之 前 先 自己 计算 一 下 。 乘 以 一 个 常数 之 后 又 如 了 一 个 常数 ， 看 起 来 
似乎 应 该 是 线性 的 。 如 果 变 量 f 是 一 个 标量 ， 那 么 DD 就 表示 一 个 直线 方程 ， 它 自然 就 应 该 是 线 
性 的 (不 是 吗 ? ) ! 好 的 ， 让 我 们 来 证 明 一 下 。 根 据 等 式 (5-1)， 我 们 可 得 : 

D(of + Bf.) = alaf, + Pfa) +b = aaf, + aff, +b 
检查 一 下 是 否 与 下 面 等 式 一 样 : 
aD( f) + BDCf,) = alaf, * b) B(af, +b) 
=aaf, + ab + aff, + Bb 
= aof, + aff, + b(a + B) 


所 以 除非 有 at+B=1，D 并 不 是 一 个 线性 算 子 ! 这 看 起 来 似乎 与 直觉 是 矛盾 的 。 对 于 这 个 问 
题 我 们 在 以 后 还 会 再 探讨 ， 并 且 看 看 能 否 弄 明白 其 原因 。 在 本 章 后 面部 分 ， 我 们 将 讨论 图 像 
中 的 线性 算 子 。 


5.2 核算 子 在 数字 图 像 中 的 应 用 


图 像 / 是 数字 的 ， 所 以 许多 作者 习惯 将 六 写成 矩阵 方 的 形式 ， 而 不 是 像 f (x, 这 样 的 函数 表 
达 式 ， 但 我 们 则 更 喜欢 采用 x、y 的 形式 ， 原 因 在 以 后 自然 会 清楚 。 后 面 ， 我 们 将 发 现 采 用 简 
单 的 下 标 f 来 表示 则 更 为 方便 ,但 现在 仍 采 用 f Gc, y) 的 形式 。 这 里 ，x 和 y 仅 是 取 秆 较 小 的 整数 ， 
例如 : 0<x<511。 

考虑 一 维 图 像 f 和 h，f 有 5 个 像素 ， 而 h 有 3 个 像素 ， 在 这 几 我 们 称 h 为 核算 子 ， 如 图 5-1 所 示 。 
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将 核算 子 的 中 心 加 移 到 图 像 F 的 一 个 像素 上 上 ， 就 可 以 得 到 核算 子 与 图 像 对 应 元 素 的 乘积 
之 和 ， 即 : ght hoth hl。 了 解 了 这 些 后 ， 考 虚 式 (5-2) 这 样 一 个 最 一 般 的 例子 ， 这 是 3 x 3 
核算 子 的 应 用 实例 : 
v 加 qoe P face Ph.D, i (5-2) 


这 里 a 和 pb 仅 取 ~1、0 和 1， 那 么 式 (5-2) 可 展开 为 : 
805) = f(x-Ly-Dh(-1-1+ f(x,y- DAQ,- 0 
| fx tly-DAh,- D f(x-1y) h (-1,0) (5-3) 
+ f(x,y)h(0,0) + f(x+1, yh (0) + FE Ly + DAC 1,1) 
+ f(xy + DAQ,D + fGc Ly ACD 


Rei AFERM 


hr | hg hy l AC~1, -1) h(0, +1) ACL, ~ i) 

fh [hn] | uo wo x» 

图 5-1 5 个 像素 大 小 的 一 维 图 像 和 3 个 像素 大 小 hcl) AOD h(1, 1) 
CO 


的 一 维 核算 子 。 下 标 为 像素 的 x 坐标 


为 了 更 好 地 理解 式 (5-3) 的 本 质 ， 我 们 将 h 写 成 3 x 3 的 数字 网 格 (grid) (是 的 ， RNK 
意 用 了 “网 格 ”这 个 词 ， 而 不 是 “和 矩阵" ) ， 如 表 5-1 所 示 。 假 设 将 这 个 网 格 放 到 图 像 上 面 使 其 
中 心 正 对 像素 点 f C y)， 然 后 网 格 中 每 个 h 值 将 与 图 像 中 相应 像素 点 相 乘 。 今 后 我 们 将 4 值 的 网 
格 称 为 “核算 子 ”。 


5.2.1 自 变量 的 方向 : 卷 积 和 相关 
让 我 们 重新 讨论 两 个 重要 的 方程。 第 一 个 是 核算 了 ， BRER (5-2)， 另 一 个 则 是 二 维 
离散 卷 积 : 
go.) - V, Yero mih | (5-4) 


san) X S fG-ay- ha 有 (5-5) 


细心 的 人 会 注意 到 式 (5-4) 与 式 (5-5) 中 乘积 的 顺序 是 不 同 的 。 在 卷 积 的 正式 定义 中 ， 
如 式 (5-5) HR 自 变量 是 反 相 的 , : 即 核算 子 最 右边 的 元 素 六 与 相应 图 像 最 左边 的 像素 上 相 
R, MER (5-4) 中 ， 则 是 将 核算 子 移 到 图 像 上 使 相应 元 素 相 乘 。 如 果 相 应 元 素 直 接 相 乘 ， 
即 左边 与 左边 相 乘 ， 右 边 与 右边 相 乘 ， 就 可 以 得 到 相关 运算 。 不 幸 的 是 ， 许 多 文献 却 用 词 不 
当 ， 误 将 两 者 都 称 为 “ 卷 积 "， 这 里 提醒 大 家 注意 这 一 点 。 在 许多 著作 中 ， 作 者 所 采用 的 术语 
“BBV SR RBA”. EEEH, Ob TEES. BAER et (5-5) 的 例子 ,我 
位 尽量 避免 使 用 “ 卷 积 ”这 个 词 ， 而 对 于 或 G- 4)， 我 们 称 之 为 ， BAT”. : 


5.2.2 用 核 第 子 估计 导数 “ | m 
让 我 们 通过 一 个 例子 ， ARUBA I SH E aa ROO RR. 
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我 们 可 以 从 微 积分 课 依 稀 回 忆 起 下 面 这 个 公式 : 
of | lim I(x + Ax) - f(x) 
Ax 


Ox Aro 


从 这 个 公式 可 以 得 到 下 面 这 个 核算 子 (Ax): 


该 点 上 估计 的 导数 





但 是 这 个 核算 子 看 起 来 令 人 感到 不 舒服 ，x 处 的 估计 值 为 什么 仅仅 依赖 于 x 和 x+1 处 的 值 ， 
却 与 x 1 没有 关系 ?我 们 采用 另 一 个 对 称 的 定义 ， 如 下 : 

of 

àx| 


- lim f Gg + Ax) - f(x, - Ax) 
x, ore 2Ax 


因为 Ax 不 能 比 1 小 ， 因 此 我 们 将 这 个 核算 子 定 为 : 


Uc 
[3T TT] 

对 噪声 的 敏感 性 是 导数 的 一 个 主要 问题 ， 我 们 通过 求 水 平 差分 后 ， 做 一 次 垂直 平均 来 进 
行 补偿 ， 这 产生 了 下 面 的 核算 子 : 





为 了 表示 简单 ， 我 们 写作 : 


-1 0 1 





(5-6) 














这 儿 引 入 了 一 个 新 的 符号 @， 在 以 上 的 表达 式 中 表示 乘积 和 。 文 献 中 经 常 看 到 类 似 的 核算 
子 ， 它 们 都 采用 差分 进行 求 导 ， 并 以 某 种 方式 将 结果 取 平 均 ， 来 补偿 噪声 的 影响 。 这 类 核算 
子 中 最 著名 的 可 能 是 苏 贝 尔 (Sobel) 算 子 : 


-1 0 1 
-2 0 2 
-1 0 1 





1 
ef (5-7) 


加 














苏 贝尔 算 子 具 有 中 间 权重 较 大 的 优点 。 
5.3 通过 函数 拟 合 估计 导数 
这 是 一 种 利用 图 像 f (x, 连续 性 的 方法 ， 它 将 x 


图 像 亮 度 看 作 两 个 空间 坐标 的 函数 ， 假 设 一 个 平 ”图 5-2 将 图 像 亮度 看 作 一 个 双 变 量 函 数 的 曲面 ， 
面 与 这 个 亮度 曲面 相 切 于 一 个 点 ， 如 图 5-2 所 示 。 则 它 的 切面 斜率 就 是 两 个 空间 偏 导 数 


fix, y) 
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这 里 ， 我 们 用 一 个 平面 方程 表示 连续 的 图 像 : 
f(x,y) - ax * by*c (5-8) 


然后 用 两 个 数 9f/9x=a 和 9f/9y=b, 来 表示 边缘 强度 ， 则 点 (x, y) 处 亮度 的 变化 率 可 表示 成 
梯度 向 量 的 形式 : 
Vf=| 一 z] -[a b] (5-9) 
y 
给 出 一 幅 带 有 噪声 且 模 糊 了 的 图 像 f, 以 及 式 (5-8) 中 所 用 的 假设 ， 下 面 的 方法 将 求 出 a、 
b、c 的 值 。 
为 求 得 这 些 参 数 ， 首 先 ， 注意 到 式 (5-8) TBE E, y)=A™X, ErBAT-[a b c], X=[x y 1]. 
假定 图 像 中 所 有 点 集 N CZ x Z 亮 度 的 观察 值 gs (x,y) 已 经 得 到 ， 而 我 们 希望 根据 这 些 点 的 值 拟 合 


出 一 个 平面 ,使 得 与 这 些 数据 拟 合 得 最 好 。 为 了 达到 这 个 目的 ， 根 据 观察 数据 和 函数 f(x, y) 
(目前 还 是 未 知 的 )， 可 以 得 到 一 个 误差 函数 : “ 


E= Y (Go y) - 65 y»? = Y (ATX - g(x,y). 


为 了 简化 ， 将 平方 展开 且 合并 同类 项 ， 可 得 : 


E= 之 (AT X)(A* X) - 2A Xg +g 
注意 : SP REBARIX, FAXXA., GORA, FA: 
E- X A'XX"A-29 ATKg + X g? 
-A(Z )a-21 Yxe e 
现在 ， 我 们 希望 能 找到 4 (平面 参数 ) 使 得 能 量 函 数 E 最 小 化 ， 于 是 需要 对 E 求 导数 ， 并 
使 导数 为 0: 
dE T 
adu Ja-23 e-o | (5-10) 


让 我 们 来 看 看 式 (5-10) 的 含义 。 令 Sixx = (散布 矩阵 ) ， 考 虑 关于 原点 对 称 的 邻 域 X ， 
假设 在 这 个 邻 域 中 xz 和 ?y 仅 取 值 -1、0、1， 那 么 


«enn 


对 于 这 里 所 描述 的 邻 域 ， 有 
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你 不 知道 这 些 值 是 从 哪儿 来 的 吧 ? 

好 ， 以 下 就 是 求 出 这 些 值 的 方法 。 对 于 左上 角 的 点 x*= 一 1, y= 一 1， 有 x*=( 一 1)?=1; 对 于 上 
排 中 间 那 个 点 x=0, y= ~- 1， 则 有 x?=0。 这 样 ， 通 过 对 邻 域 中 的 9 个 点 进行 计算 ， 就 可 以 得 
到 PE =6。 了 明白 了 吗 ? 

有 用 的 发 现 : 如 果 令 邻 域 关于 原点 对 称 ， 那 么 散布 矩阵 中 包含 x* 或 ? 奇 次 方 的 项 为 零 。 

注意 : 一 个 常见 的 错误 是 把 矩阵 的 右 下 角 当 成 是 1， 而 不 是 9! 要 仔细 1 

现在 ， 我 们 可 以 得 到 矩阵 形式 的 方程 : 


6 0 O][a g(x,y)x 
210 6 0jjb|=2 BX,Y)Y 
0 0 9|lc g(x,y) 














这 就 很 容易 解 得 a: 
a- c sexe 2 
因此 ， 通 过 在 一 个 邻 域 范围 内 进行 拟 合 可 以 求 得 这 个 导数 ， 对 于 9 邻 域 中 的 每 个 点 ， 将 其 
测量 值 乘 以 xz 坐标 ， 并 将 所 有 的 积 加 起 来 。 将 所 有 的 x 坐 标 写成 表格 的 形式 : 








这 正好 是 我 们 直观 上 求 出 的 式 (5-6) 的 核算 子 ， 现 在 我 们 正式 推导 出 来 了 。 

我 们 通过 一 种 优化 算法 来 求 得 这 个 结果 ， 在 这 个 例子 中 ， 通 过 最 小 化 平方 误差 ， 来 求 得 
方程 y=f OFRES OMAR, REP 是 一 个 多 项 式 。 回 顾 4.1.2 节 ， 这 种 形式 是 一 种 显 式 的 函 
数 表达 。 

一 个 术语 问题 : 在 以 后 的 讨论 中 ， 我 们 将 使 用 “ 核 半 径 ” 这 个 术语 。 从 中 心 到 最 近 的 那 
条 边 之 间 的 像素 个 数 就 是 半径 。 比 如 ， 一 个 3 x 3 核 的 半径 为 1!， 而 一 个 5 x 5 核 的 半径 就 为 2， 
依次 类 推 。 当 然 也 可 以 将 核算 子 设计 成 圆 形 的 ， 但 大 多 数 时 候 ， 我 们 采用 方形 的 核算 子 。 


在 六 角形 排列 的 像素 中 求 图 像 梯度 


在 这 一 节 中 ， 我 们 要 通过 同一 种 方法 来 求 得 图 像 的 梯度 ， 但 这 次 是 在 成 六 角形 排列 的 像 
素 中 。 参 考 4A.1 节 关于 坐标 系统 的 讨论 ， 这 是 同一 内 容 的 不 同 表示 。 如 果 仔 细 地 读 了 这 两 种 
表示 方法 之 后 ， 你 就 会 对 这 个 概念 有 更 清晰 的 理解 。 

为 了 找到 图 像 中 亮度 的 梯度 ， 就 需要 根据 一 个 小 邻 域 的 数据 来 拟 合 出 一 个 平面 ， 这 个 平面 
可 以 表示 成 式 (5-8) 的 形式 。 然 后 ， 在 相应 的 方向 分 别 对 wx 和" 求 偏 导 数 ， 就 可 以 求 得 亮度 的 
梯度 值 。 对 于 一 个 中 心 点 ， 取 其 周围 6 个 点 的 邻 域 ， 并 对 其 进行 平面 拟 合 。 令 该 数据 点 集 为 z， 
(i=1, 06)， 则 下 面 的 表达 式 表示 对 这 6 个 点 的 平面 拟 合 的 误差 ， 其 中 平面 的 参数 为 <、b、c: 


6 
E= Ș (a = (au; + by, eO (5-11) 
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为 了 把 有 表示 成 易 求 导 的 形式 ， 我 们 后 共 中 的 自 变 量 表 示 成 给 降 形式 。 定义 向 量 4= [ab 
cy’, Zalu ， 则 EE 可 以 写成 : 


B= Se, AZ) MEME (512) 

- Se -2zA'Z, + A'Z, A'Z) ^ (5-13) 

首先 ， 由 于 42Z=Z:4， 因 此 可 以 重新 改写 式 (5- 13)， 为 了 书写 方便 ， 暂 时 去 掉 了 求 和 的 
EFR: 

- Y -24' Y uz « A (Y Zz )A (5-14) 


X (5-14) 括号 中 的 项 是 个 散布 矩阵 ， 即 数据 所 在 点 位 置 的 集合 ， 并 将 它 定 义 为 符号 S。 
为 了 找到 能 将 EE 最 小 化 的 向 量 4 的 值 ， 对 它 作 关于 4 的 偏 导数 : 


3E 5-15) 
oA 2S) zZ, «28A ( 


RS, pf: 
u; u,v; LZ 4 -2 0 
S= uv, Xv v,{=|-2 4 0 
u; Vi 1 0 06 











(HUFR4-1S BAR, EP OAE), MUA AOE Au, VARESE RR, 就 


可 以 得 到 这 些 数据 值 。 ) 
EXC 
. . ' Yu. =y, 
Sz, z= yY, 
4X (5-15) 的 偏 导数 为 0， 可 以 得 到 一 对 联 立方 程 : 
4a-2b= y, (5-16) 
-4a + 8b = 2Y, 
其 解 为 : 
b==(2Y,+Y,) (5-17) 
与 此 类 似 : 
a=2 (4427) (5-18) 


对 邻 城中 6 个 像素 的 每 个 像 于 将 和 v 的 值 代 入 ， 因为 在 "二 向 的 梯度 值 为 < 而 "方向 的 樟 
度 值 是 8， 故 可 以 得 到 梯度 向 量 。 
将 了 的 定义 式 代 入 ， 等 式 a 可 以 整理 为 : 


a= (Se w+2 2m) = Da + 2u,) 
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对 于 与 中 心 点 紧邻 的 右边 的 像素 ， 它 的 w&、* 坐 标 为 (1, 0)， 因 此 在 该 点 处 的 图 像 亮 度 Z, 就 
应 该 乘 以 (w +2x0， 即 (0+2 x 1) 为 2， 这 就 是 应 
该 代入 到 核算 子 中 的 值 。 在 用 这 个 方法 的 时 候 ， G) o 
应 该 注意 的 是 这 里 所 得 的 结果 并 不 正确 一 这 90 CO 
里 所 得 的 结果 是 最 优 估计 的 6 倍 ， 如 果 准 确 的 9 G) 
结果 比较 重要 ， 而 不 是 需要 一 个 与 估计 值 成 正 GT 99 
比 的 结果 ， 那 么 应 该 再 除 以 6。 对 于 每 个 点 重 


复 这 个 过 程 ， 就 可 以 得 到 如 图 5-3 所 示 的 核算 Msa soe remet euet 
子 。 

本 节 所 描述 的 拟 合 的 概念 是 很 常见 的 ， 它 们 在 整个 机 器 视觉 学 科 中 经 常 出 现 ， 在 拟 合 灰 
度 值 、 表 面 、 直 线 (在 第 9 章 中 会 提 到 )、 曲 线 等 时 会 经 常 需要 用 这 类 方法 。 甚 至 还 有 一些 广 
法 可 以 对 已 知 统计 参数 的 数据 进行 拟 合 [5.7.5.40]。 


5.4 图 像 的 矢量 表示 


假设 将 图 像 中 的 每 个 像素 点 以 光栅 扫描 的 顺序 进行 排列 ， 得 到 一 个 长 向 量 ， 例 如 ， 对 于 
4x4 的 图 像 : el 


fo y) = 








F=(124173289214412 39] 


SRA FAR” WAR. MERRE ERZEK, BRR RT DLE Rf A B0 
引 来 确定 ， 例 如 ，Fo=1, Fs=7, Fis=3， 这 里 索引 是 从 0 开始 的 。 

现在 ,假设 要 将 下 面 的 核算 子 作 用 到 图 像 的 x=1，y=1 点 处 : 
-1 0 2 
-2 0 4 
3 9 1 


h- 








这 里 的 标号 也 是 从 0 开始 的 。 
点 (1,1) 对 应 于 图 像 中 的 像素 Fs。 这 个 核算 子 的 应 用 可 以 通过 将 矢量 F 与 如 下 的 矢量 做 点 积 
来 实现 : 
H=[-1 020-20403910000 or 
现在 可 以 试 一 下 ， 如 果 将 核算 子 作 用 于 (2,2)， 该 采用 什么 向 量 ?你 知道 吗 ? 
H,-00000-1020-204023 9 1 


试 试 对 于 点 (2,1) (x=2, y=1): | 
H,-[D -1 0 2 0 -2040391000 or 
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-对 比 二 下 在 点 (1, 1) 的 下 和 点 (2, 1) BH, 它们 除了 旋转 之 外 是 完全 一 样 的 。 通 过 构 
造 一 个 矩阵 ， 使 其 每 一 列 为 这 类 如 中 的 一 个 向 量 ， 可 以 对 整个 图 像 进行 卷 积 。 这 样 就 可 以 产生 
如 图 所 示 的 一 个 矩阵 。 通 过 乘积 CG=ErF，G (向 量 形式 ) 就 是 图 像 F 若 积 核 H 的 结果 。 

对 于 这 个 过 程 可 以 观察 到 以 下 几 点 : : DE 

“。 所 得 的 矩阵 是 一 个 “循环 ”和 矩阵， 每 一 列 只 是 相 邻 列 的 一 个 旋转 。 .. .0. 

“以 这 种 方式 应 用 核算 子 是 “核算 子 是 线性 算 子 ”这 一 事实 的 另 一 

种 体现 。 

“这 种 形式 给 出 了 一 种 处 理 边界 条 件 难题 的 方法 〈 你 考虑 到 这 些 了 
2) 特别 是 在 第 一 行 时 ， 这 些 数据 是 怎么 乘 上 去 的 ? 一 种 办 法 “| 
“是 将 图 像 旋 转 并 将 最 下 面 的 数据 往 上 移 。 |... 

C ABEREAEN 如 果 f 是 个 典型 256 x 256 像 素 的 图 像 ， 那 么 五 就 有 |… 
(256 x 256) x (256 x 256) 那 么 大 ， 这 是 一 个 很 大 的 数目 。 不 过 不 要 
担心 有 有 那么 大 ,没有 (几乎 没有 ) 人 会 去 计算 五 并 以 这 种 方式 来 
用 。 这 种 形式 对 于 考虑 图 像 并 对 那些 关于 图 像 算 子 的 定理 进行 证 上 
明 是 非常 有 用 的 一 -这 是 一 种 概念 ， 而 不 是 一 种 计算 工具 。 L- 
最 后 ， 通 过 使 用 傅 里 叶 变 换 可 以 使 与 循环 矩阵 相 乘 变 得 相当 快 ， 更 

[4] 多 的 内 容 将 会 在 后 面 介绍 。 


5.5 图 像 的 基 向量 


在 前 一 节 ， 图 像 被 视 为 一 个 向 量 。 如 果 对 一 幅 图 像 可 以 这 么 做 ， 那 么 当然 也 可 以 将 小 的 
子 图 像 视 为 一 个 向 量 。 考虑 一 个 点 的 9 邻 域 ， 如 果 将 该 邻 域 以 字典 方式 表示 ， 就 可 以 很 容易 构 
造 出 一 个 9 维 的 向 量 。 
从 第 2 章 可 以 知道 ， 任何 一 个 向 量 都 可 以 表示 成 一 一 组 基 向 量 的 加 权 和 ， 这 里 将 采用 这 种 概 
È- SX (2-6) 改写 成 如 下 形式 : 
` [i .9 : 
v= dam 


这 里 Y 是 一 个 9 维 的 向 量 ， 代表 了 9 个 像素 组 成 的 邻 域 ， ma 为 标量 加 权 系 数 ，u; 是 一 组 正 
交 基 向 量 的 集合 。 

但 是 应 该 采用 什么 样 的 基 向 量 呢 ? 另外 ， 什么 样 的 基 向 量 集 才 是 有 用 的 ? 我 们 经 常 使 用 
的 集合 是 笛 卡尔 基 ， 即 : 


| 

L 

borolo 
onoocloooooco 


t 
~ 








—- OW ORO 


Mm ooooo-ocoos»sojlomnue 
Mi Sosooc mow onO 


X 
e 


u=(1 000000 0 oře 
u=(0 10000 0 0 aft 


u-[( 000000014] 


这 些 基 虽然 方便 简单 ， 但 是 在 这 里 对 我 们 一 点 用 都 没有 。 那 么 还 存在 其 他 更 有 用 的 基 
吗 ? (答案 是 肯定 的 .) 在 给 出 答案 之 前 ， 你 记得 在 9 维 的 实数 空间 可 能 有 多 少 组 基 向 量 吗 ? 
BRE NT” HO, 既然 有 这 么 多 种 选择 ， 就 应 该 选 一 些 好 的 基 向 量 。 为 了 这 个 目的 ， 回 


O "XL. 正确 的 答案 应 该 是 “无 数 ” 种 ,“ 亿 万 ”种 只 是 一 种 工程 学 上 的 近似 。 





顾 一 下 系数 a; 的 作用 ， 如 果 一 些 a; 的 值 比 起 其 他 的 a 要 大 的 多 ， 这 意味 着 V 与 a: “非常 相似 ”。 
通过 计算 这 些 a， 可 以 得 到 一 种 方法 ， 找 到 一 组 与 图 像 最 相似 的 模板 邻 域 。 

图 5-4 描 述 了 一 组 由 Frei 和 Chen{5.12] 提 出 来 的 模板 邻 域 。 注 意 ， 邻 域 ui 在 中 心 水 平 线 下 
面 是 负 的 ， 而 在 上 面 则 是 正 的 。 因 此 ， 这 表示 存在 一 条 水 平 的 边缘 ， 也 就 是 存在 一 个 9f76y 值 
很 大 的 点 。 























图 5-4 Frei-Chen 基 向 量 


回顾 一 下 如 何 求 投影 a;， 求 一 个 向 量 V 投 影 到 一 个 基 向 量 w, 的 标量 值 的 方法 是 作 内 积 
a= V'u, 。 
一 种 求 某 个 点 的 邻 域 与 一 条 竖 直 边 的 相似 程度 的 方法 ， 是 通过 计算 邻 域 向 量 与 紧 直 边 的 
基 向 量 作 内 积 来 实现 的 。 最 后 一 个 问题 是 : 计算 这 种 投影 与 在 一 个 点 处 用 核算 子 对 图 像 卷 积 
来 估计 af/ox 有 什么 不 同 呢 ?答案 留 给 读者 作为 练习 。 

那么 到 现在 ， 你 已 经 知道 关于 线性 算 子 和 核算 子 的 (GAL) 所 有 知识 了 ， 下 面 让 我 们 
继续 讨论 先前 所 提 到 的 核算 子 的 应 用 一 一 寻找 边缘 。 


5.6 边缘 检测 


边缘 是 图 像 中 亮度 突然 变化 的 区 域 ， 在 那里 导数 〈 更 准确 地 说 ， 某 一 个 导数 ) 值 很 大 。 
如 图 5-5 所 示 ， 我 们 将 边缘 分 成 阶 跃 型 边缘 、 屋 状 状 边缘 和 斜坡 型 边缘 [5.20] 。 

_ 正 的 阶 跃 边 缘 

O LLL 负 的 阶 跃 边缘 
———— TE AK 
o d RED AK 

-一 一 正 的 斜坡 边缘 

正 的 斜坡 边缘 

一 一 一 一 一 、 负 的 斜坡 边缘 


天 
75 


图 5-5 经 常 出 现 的 几 类 边 。 注 意 这 里 的 术语 正和 负 通 常 指 的 是 一 阶 导数 第 一 项 的 符号 76 
我 们 已 经 (两 次 ) 看 到 过 如 下 所 示 核算 子 是 如 何 对 关于 x 的 偏 导数 进行 近似 的 : 
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(5-19) 


类 似 的 ， 


(5-20) 





用 它 来 估计 ar/ay。 | 
在 文献 中 还 出 现 过 其 他 形式 的 算 子 ， 我 们 应 该 知道 这 是 因为 历史 原因 造成 的 。 


(5-21) 





重要 提示 O 

”在 软件 实现 中 ，y 的 正方 向 是 向 下 的 。 从 而 扫描 的 方式 是 从 上 到 下 ， 从 左 到 右 ， 因 此 像素 
A (0, 0) 在 图 像 的 左上 角 ， 而 且 数 字 是 从 0 开始 的 ， 而 不 是 1。 我 们 发 现 能 避免 这 种 混 清 最 
好 的 方法 是 在 程序 中 不 用 “x” 和 “y”， 而 用 “ 行 ” 和 “ 列 ” 来 表示 ,而 0 行 在 第 一 行 。 

然而 我 们 在 文章 中 采用 了 传统 的 笛 卡 尔 坐 标 以 保证 数学 上 的 正确 性 ， 而 这 会 使 学 生 感 到 
更 困惑 (毕竟 这 就 是 那些 教授 需要 存在 的 原因 ， 对 吧 ? )， 

消除 这 些 困惑 之 后 ， 继 续 我 们 的 讨论 。 给 定 梯度 向 量 : 


vw Z] nto, Gr (5-22) 
我 们 对 它 的 幅 值 感 兴趣 (这 里 称 之 为 “边缘 强度 ") 
ki Ivi- Jc? «c; (5-23) 
以 及 它 的 方向 
LY = atan | (5-24) 


一 种 求 图 像 边缘 的 方法 是 先 计算 出 一 幅 “ 梯 度 幅 值 ”的 图 像 ， 然 后 对 它 益 值 化 。 试 一 斌 
作业 5.5。 

从 这 些 实验 可 以 了 解 到 什么 ? 显然 ， 在 用 简单 的 核算 子 求 边缘 时 出 现 了 一 些 困难 。 在 
后 面 的 大 部 分 课程 里 面 ， 我 们 将 解决 这 个 问题 。 首 先 ， 于 我 人 改进 这 种 基于 核算 子 的 边缘 
检测 。 | 





5.7 用 核算 子 表示 可 微 函 数 的 采样 


现在 ， 我 们 希望 你 能 意识 到 ， 迄 今 为 止 ， 你 所 用 的 所 有 边缘 检测 算 子 都 能 同时 做 两 件 事 
fS: 平滑 (也 叫 “ 低 通 滤 波 "、“ 去 品 ”"、“ 平 均 ” 或 “模糊 ”) 和 微分 (也 叫 “ 高 通 滤波 ”或 
"BUE" ). XX (5-6) 中 的 核算 子 实际 上 就 是 对 三 个 所 估计 的 导数 求 竖 直 方向 的 平均 值 ， 但 因 
为 它 对 中 间 像 素 和 其 上 方 和 下 方 的 像素 采用 了 一 样 的 权重 ， 故 实际 上 与 直观 感觉 是 相反 的 。 

.考虑 作业 5.6 的 结果 ， 如 果 答 案 正确 ， 那 么 离 中心 越 远 ， 核 算 子 的 值 也 就 会 越 大 。 那 就 更 
不 对 了 。 为 什么 那些 离 求 导 那 个 点 越 远 处 的 数据 点 反而 在 估计 中 起 作用 更 大 ?这 与 我 们 给 出 
的 关于 用 所 有 的 像素 来 拟 合 一 个 平面 的 假设 是 矛盾 的 ， 假 设 显 然 不 是 这 样 的 。 

因此 有 一 种 更 好 的 方法 一 一 对 中 心 点 取 更 大 的 权重 ， 你 已 经 看 到 过 这 种 情况 了 一 一 苏 贝尔 
WT, MX (5-7) 那样 。 但 是 现在 ， 让 我 们 更 严格 一 点 。 采 用 一 个 中 间 值 比较 大 的 核算 子 对 
图 像 进行 模糊 处 理 ， 然 后 再 求 微分 。 有 很 多 种 这 样 的 核算 子 ， 例 如 : 三 角 波 形 的 或 高 斯 的 ， 
但 透彻 的 研究 [5.28] 已 经 证 明 采 用 高 斯 核算 子 进行 模糊 处 理 效 果 更 好 。 这 个 过 程 可 以 写成 : 


d= (g&h) 
Ox 


这 里 g 是 一 幅 标 准 的 图 像 ，h 是 高 斯 核算 子 ，d 是 求 得 的 导数 图 像 。 现 在 给 出 线性 系统 的 一 条 重 
要 定理 : 
对 于 线性 算 子 D 和 @， 有 : 
D(g@h) = Dh) Gg (5-25) 


X (5-25) 表示 并 不 需要 首先 做 模糊 处 理 然后 再 求 微分 ， 而 只 要 预先 计算 好 模糊 核算 子 
的 微分 ， 然 后 简单 地 将 所 得 的 核算 子 作用 于 图 像 就 行 了 。 
让 我 们 看 一 下 是 否 还 记 符 如 何 对 一 个 二 维 的 高 斯 函数 求 导 (你 是 否 忘 记 二 维 函 数 了 ? )。 
一 个 d 维 多 变量 的 高 斯 函数 的 一 般 形 式 为 : 
1 [x-y)' K'[x-p) 
Qx ^ KI? exp- 2 | (5-26) 
这 里 有 是 协 方差 矩阵 ， 而 /是 一 个 均值 向 量 。 因 为 我 们 需要 一 个 中 心 在 原点 (中心 像 素 的 
位 置 ) 的 高 斯 函数 使 得 w=0， 而 且 没 有 理由 说 一 个 方向 比 其 他 的 方向 更 好 ， 因 此 选 K 为 对 角 阵 








(各 向 同性 ): 
2 
i | (5-27) 
对 二 维 的 情况 ， 式 (5-26) 可 以 简化 为 : 
__1 -ix yix yl) — 1 QU ey) 5-28 
Moxy) = 2xo? ex 20? | — 2no? ex 20? 
H: 
ð ME Qi ty’) 
x h(x,y) Snot ex[ ED (5-29) 


如 有 果 我 们 的 目标 是 边缘 检测 ， 这 样 就 可 以 了 。 但 是 如 果 需 要 精确 的 求 导 ， 特 别 是 高 阶 导 
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数 ， 如 果 采 用 高 斯 核算 子 ， 由 于 它 会 模糊 图 像 # 因此 显然 会 引入 误差 ， 而 这 只 能 进行 部 分 的 
补偿 [5.39]。 尽 管 如 此 ， 采用 有 效 的 求 导 核算 子 仍然 是 最 简单 的 方法 之 一 。 

这 里 有 些 一 维 高 斯 的 导数 ， 将 来 可 以 作为 参考 。 即 使 许多 时 候 并 不 需要 归 一 化 因子 Jon 
( 它 保证 高 斯 积分 为 1)， 这 里 还 是 将 这 个 系数 加 进去 了 ， 这 样 就 与 许多 文献 中 的 表达 式 一 致 了 。 
这 里 下 标 则 用 来 表示 导数 ， Bi: 


o? 
Gu (0.3) = —7 (0,2). 
这 里 G(o, x) 是 x 的 高 斯 函数 ， 均 值 为 0， 标 准 差 为 0 
1 x? 
G(o,x)= gg- ad 

cn = onl - zs) 

x 1 x? 
6.6.0» (pee T en-z] 


- tog X x? x? 
G,..(O,X) = ———-|3-—-lexp| - —— 
79] «eps 5) | xz) 


(5-30) 
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图 5-6 a) 中 心 在 0 处 的 一 维 高 斯 的 二 阶 导数 b) 3 点 近似 


让 我 们 来 看 一 下 关于 如 何 使 用 这 些 公式 ， 以 及 与 它们 二 维 形式 等 价 的 导数 核算 子 的 更 多 
的 细节 。 

得 到 这 些 高 斯 导数 核算 子 值 的 最 简单 的 方法 就 是 简单 地 沿 着 它们 的 负 方 向 将 x=0, 1, 2 等 代 
入 ， 从 而 产生 核算 子 中 的 数值 。 随 之 出 现 的 第 一 个 问题 是 “o 应 该 是 什么 ? ”为 了 解决 这 个 问 
题 ， 我 们 通过 对 一 维 高 斯 计算 二 阶 导数 求 得 核算 子 的 元 素 ， 而 其 他 的 导数 则 可 以 用 同样 的 方 
法 求 得 。 看 到 图 5-6 或 许 会 问 “ 是 否 存在 这 么 一 个 c， 使 得 二 阶 导数 在 z= - 1 和 x=1 处 存在 最 大 
E. PREFER, XMAN o =1/(V3) 。 给 定 o 的 这 个 值 ， 可 以 计算 出 高 斯 的 二 阶 导数 在 
整数 点 x={ ~ 1, 0, 1} 的 值 。 在 x=0， 有 G_(1/V3,0) = -2.07; 在 x=1 处 ， 有 G_(1/V3,1) = 0.9251. 
就 这 么 完了 ? 一 点 都 不 难 吧 ? 不 幸 的 是 ， 这 并 没有 完成 。 非 常 重要 的 一 点 是 ， 核算 子 的 所 有 
元 素 加 起 来 的 和 应 该 是 9， 如 果 不 是 的 话 ， 在 多 次 迭代 之 后 ，( 如 第 6 章 中 的 迭代 算法 ) 就 不 能 
保持 正确 的 亮度 值 。 另 外 ， 核 算 子 也 应 该 是 对 称 的 。 这 在 本 质 上 定义 了 高 斯 的 二 阶 导数 。 与 
这 些 条 件 接近 而 又 最 合理 的 利 是 {1, ~ 2, 11 ， 既 满足 对 称 性 ， 同 时 累加 的 和 也 为 0。 








然而 这 些 并 不 能 教 给 我 们 什么 ， 让 我 们 来 看 5 x 1 的 核算 子 ， 从 中 我 们 可 以 学 到 更 多 的 东 
西 。 这 里 需要 满足 以 下 条 件 : 

。 核 算 子 的 元 素 应 尽 可 能 接近 高 斯 导数 的 值 。 

。 核 元 素 累 加 的 和 为 0。 

* 除非 需要 特殊 处 理 ， 核 算 子 应 该 以 中 心 对 称 。 

可 以 求 得 5 个 元 素 的 一 维 高 斯 的 元 素 ， 对 于 x={ 一 2, 一 1, 0, 1, 2}, MRR o =1//3, X 
可 以 得 到 [0.0565, 0.9251, — 2.0730, 0.9251, 0.0565]， 但 不 幸 的 是 ， 这 些 值 加 起 来 并 不 等 于 0。 
保证 核算 子 元 素 累加 为 0 这 点 非常 重要 ， 而 对 于 实际 的 值 是 否 精确 则 并 不 显得 那么 重要 。 因 此 
在 这 种 情况 下 应 该 怎么 做 昵 ? 采用 约束 优化 。 一 种 方法 是 通过 求 得 高 斯 的 二 阶 导 数 ， 并 在 积 
分 为 0 的 条 件 下 ， 使 值 与 之 尽 可 能 接近 。 对 于 更 复杂 的 情况 ， 作 者 采用 Interopt[5.3] 的 方法 来 
解 这 个 数值 优化 问题 ， 但 是 你 也 可 不 用 数值 方法 解 这 个 问题 。 实 现 的 方法 如 下 : 首先 ， 理 解 
这 个 问题 ( 像 上 面 提 到 的 5 个 点 的 情况 ): 我 们 希望 找到 5 个 数 ， 使 之 尽 可 能 接近 [0.0565， 
0.9251, — 2.0730, 0.9251, 0.0565]， 同 时 满足 5 个 数 相 加 为 0 的 约束 条 件 。 利 用 对 称 性 ， 实 际 上 
只 有 3 个 数 ， 定 义 为 [wa, 5b, cl。 为 了 表示 方便 ， 引 入 3 个 常量 a=0.0565, B=0.9251, y2 - 2.073。 为 
了 找到 与 这 3 个 数 相像 的 4、b 和 c， 可 以 写 出 均 方 误差 (MSE) 的 形式 : 


Hola,b,c) =2(a-a) +2(b- B) «(c - y = (5-31) 
利用 拉 格 户 日 乘 子 的 概念 ， 通 过 对 另 一 个 目标 函数 最 小 化 可 以 找到 最 佳 的 a、b 和 ec: 
H(a,b,c)=2(a-a) «2(b - BY. «(c -yY +AQa+2b+ce) (5-32) 


那些 对 于 采用 拉 格 朗 日 乘 子 进行 带 约束 条 件 优 化 不 熟悉 的 同学 ， 这 里 还 需要 再 解 释 一 下 。 
前 面 的 4 (ABBA ART) 是 约束 项 ， 如 果 找 到 正确 的 a、b 和 c， 它 就 应 该 等 于 0。 通 过 最 
小 化 已 ， 可 以 找到 使 砚 最 小 化 的 参数 ， 并 同时 满足 约 东 条件。 

为 了 最 小 化 忌 ， 求 导 并 令 导数 为 0: 
E -4a-4a *2À 
OH _ 4b 4B42À 
ab (5-33) 
aH 
dc 


令 偏 导数 为 0， 化 简 并 加 入 约束 后 ， 得 到 如 下 的 线性 方程 组 : 


22c-2y +A 


2 (5-34) 


2as2bec-0 
解 之 ， 得 如 表 5-2 所 示 的 解 集 。 
用 同样 的 方法 可 以 计算 出 估计 二 维 高 斯 偏 导 数 的 核算 子 。 
图 5-7 表 示 一 个 各 向 同性 的 高 斯 关于 x 的 一 阶 导 数 。 你 可 以 利用 这 个 机 会 推导 一 些 其 他 的 
核算 子 ， 作 为 练习 。 
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表 5-2 一 维 高 斯 的 导数 


一 阶 导 数 ，3 x 1  [0.2420,0.0, -0.2420] 或 [1, 0, — 1] 

一 阶 导数 , 5x1 [0.1080, 0.2420, 0, — 0.2420, — 0.1080] 
二 阶 导数 , 3x1 [l,-2,1] 

二 阶 导数 , 5x1 (0.07846, 0.94706,- 2.05104,0.94706, 0.07846] 








图 5-7 3 x 3 的 一 阶 导数 核算 子 


在 本 章 ， 我 们 探讨 了 基于 核算 子 的 边缘 检测 算 子 的 思想 。 我 们 发 现 无 论 怎样 ， 带 噪声 的 
图 像 会 导致 边缘 : 

“ 在 某 些 地 方太 粗 。 

* 在 某 些 地 方 缺失 。 

* 在 某 些 地 方 引 入 额外 的 边缘 。 | 

那 就 是 现实 一 采用 简单 的 核算 子 不 可 能 得 到 更 好 的 结果 。 在 第 6 章 ， 我 们 将 探讨 解决 这 
些 问题 的 方法 。 m 

你 也 肯定 猜 到 了 ， 正 如 我 们 希望 的 那样 ， 在 图 像 中 检测 边缘 ， 除 了 简单 地 阔 值 化 导数 之 
外 ， 还 有 其 他 的 方法 。 在 后 面 几 节 ， 我 们 将 提 到 一 些 这 一 类 的 方法 。 


高 阶 导数 


我 们 刚才 已 经 看 到 利用 高 斯 导数 是 如 何 求 得 二 阶 和 三 阶 导数 的 。 既 然 问题 已 经 提出 来 了 ， 
而 且 在 以 后 也 需要 知道 这 个 术语 ， 因 此 ， 这 儿 定 义 了 两 个 基于 二 阶 导数 的 标量 算 子 : 拉 普 拉 
斯 算 子 和 二 次 变 分 。 
| 82 | 在 点 x，? 处 亮度 的 拉 普 拉 斯 算 子 为 : 


而 亮度 的 二 次 变 分 为 : 





的 :的 :的 
ax? dy? ðxðy 


拉 普 拉 斯 算 子 可 以 用 一 些 核算 子 进行 近似 ， 包 括 如 下 的 核算 子 : 





5.8 计算 卷 积 


回顾 5.2.1 节 ， 对 于 任何 核算 子 而 言 ， 它 与 卷 积 之 间 唯一 的 不 同 点 在 于 x 有 和 y 的 方向 。 因 此 
计算 卷 积 的 有 效 方法 也 就 是 应 用 核算 子 的 有 效 方法 。 卷 积 运算 可 以 按 以 上 所 说 的 方法 直接 计 
算出 来 ， 它 是 在 每 个 像素 邻 域 中 所 作 的 一 个 简单 的 乘积 之 和 ， 然 而 它 也 可 以 通过 传 里 时 变换 








求 得 。 卷 积 的 健 里 叶 变 换 等 于 两 个 变量 各 自传 里 叶 变 换 的 乘积 。 也 就 是 说 (定义 郑 积 为 @)， 
牵涉 到 的 是 : 
a(x, y) = f(x, y) 8 h(x, y) 
定义 两 图 像 的 傅 里 叶 变 换 和 卷 积 核算 子 为 : 
G(w, ,w,) = F(g(x,y)) 
F(o, ,0,) = F( f(x,y) 
H(0,,0,) = F(h(x,y)) 
iX BRUT S Pag a 4S, Pe ( 双 变量 的 函数 ) 的 传 里 时 变换 本 身 也 
是 一 个 双 变 量 的 函数 。 变 量 w 和 ,分 别 指 x、y 方 向 的 空域 频率 。 那 么 G 就 是 F 和 瑟 的 乘积 : 


G(o,,0,) = F(@,,0,)"H(,,0,) l (5-35) 


对 每 个 空域 频率 值 (w. 和 ww,)， 两 个 变换 的 “乘积 ”意味 着 两 函数 值 的 乘积 。( 一般 来 讲 ， 
这 些 值 都 是 复数 。) 

出 于 计算 的 复杂 性 ， 逐 点 相 乘 的 计算 量 是 很 可 观 的 。 考 虚 用 L x L 的 核算 子 着 积 N x N 大 小 
图 像 的 复杂 度 ， 在 空域 做 郑 积 ， 对 于 每 个 像素 点 要 做 L x L 次 乘法 ， 共 N?L? 次 。 采 用 傅 里 叶 变 
换 (假定 你 采用 快速 傅 里 叶 变换 ) 以 如 下 方式 进行 。( 具 体 细节 超出 了 本 节 范 围 ， 但 我 们 假定 
一 个 NN * N 图 像 的 仁 里 叶 变 换 本 身 也 是 一 个 相同 大 小 的 二 维和 矩阵 .) 

。f 的 变换 : N log N. 

。 有 的 变换 : L^ log L. 

。 进行 适 当 的 操作 ， 比 如 填充 ， 使 H 和 FF 大 小 相同 。 

* FAFSELAH: N^, 

。 将 结果 反 变 换 : M log N. 

尽管 通过 变换 域 并 不 方便 ,但 是 如 果 这 四 项 的 和 小 于 N?2L?， 计算 起 来 还 是 很 有 效 的 但 
对 于 某 个 具体 尺寸 大 小 的 图 像 和 核算 子 ， 应 该 怎么 做 呢 ? 幸运 的 是 ， 在 不 同 的 尺寸 大 小 下 ， 
有 人 已 经 分 析 了 采用 传 里 叶 变 换 和 空域 方法 计算 卷 积 的 相对 效率 ， 结果 如 图 5- 8 所 示 。 从 图 可 
知 ， 如 果 核 算 子 大 于 15 x 15， 就 应 该 采用 傅 里 叶 方 法 ， 如 果 核 算 子 小 于 7 «7, 则 应 该 采用 空 
域 的 方法 。 因 为 FFT 要 求 图 像 的 大 小 为 2 的 乘 方 ， 所 以 区 域 边 界 需要 进行 7 特殊 的 变动， RE 
来 对 于 其 他 尺寸 的 图 像 而 言 就 会 增加 计算 复杂 度 。 
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图 5-8 FAL xZ 的 核算 子 卷 积 N x N 的 图 像 的 计算 效率 。 曲 线 上 方 的 组 合 表示 采用 传 里 时 方法 更 有 效 ， 
而 曲线 下 方 是 采用 空域 的 方法 更 有 效 ( 取 自 Pratt[5.33]) 
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5.9 尺度 空间 


“尺度 空间 ”(scale space) 是 著名 的 图 像 金字 塔 概念 的 新 补充 ， 最 先 在 Kelly[5.19] 的 图 像 
处 理 中 被 采用 ， 后 来 又 以 各 种 方式 进行 扩展 ( 见 [5.5， 
5.8，5.30，5.32] 等 )。 在 金字 塔 方式 中 ， 产 生 了 同一 图 
像 的 一 个 表示 序列 ， 邻 近 的 高 一 级 图 像 通过 下 一 级 图 像 
以 2 : 1 的 下 采样 (或 求 平均 ) 方式 产生 ( 见 图 5-9 )。 \ 

图 5-10 表 示 一 种 高 斯 金字 塔 ， 它 通过 在 2:1 的 下 采 
样 之 后 在 每 一 层 上 用 高 斯 模糊 得 到 。 当 看 到 这 幅 图 像 之 
hi. 读者 可 能 会 提出 一 l 很 有 趣 的 问题 : 从 金字 塔 中 所 图 5-9 金字塔 是 图 像 序列 的 一 种 数据 结 
有 的 数据 里 ， 是 否 能 重 构 原来 的 图 像 ? 答案 是 “不 能 ”。 b eS aia les ri 
因为 在 每 一 层 ， 已 经 丢弃 了 高 频 信 息 。 “ies tia hia 

虽然 单独 的 高 斯 金字 塔 并 没有 包含 足够 的 信息 来 构 
造 原始 图 像 ， 我 们 还 是 可 以 构造 出 一 个 包含 足够 信息 的 金字 塔 。 为 了 达到 这 个 目的 ， 我 们 采 
用 一 个 “ 拉 普 拉 斯 算 子 ”人 金字塔， 通过 计算 出 图 像 的 一 个 相似 表达 来 进行 构造 ， 这 就 保留 了 
高 频 信 息 〈 见 图 5-11 )。 通 过 组 合 这 两 组 金字 塔 图 像 可 以 重 构 出 原始 的 图 像 。 

在 现代 的 尺度 空间 的 表示 中 ， 我 们 保留 了 这 个 概念 : 每 一 层 是 前 一 层 的 模糊 结果 ， 但 不 
是 子 采样 一 -每 一 层 与 前 一 层 一 样 大 小 ， 但 是 比 之 更 模糊 。 通 常 ， 每 一 层 通 过 用 一 个 方差 为 0 
的 高 斯 卷 积 原 图 像 而 产生 ， 而 每 一 层 的 o 是 不 同 的 ， 这 个 方差 就 成 为 了 “尺度 参数 ”。 显 然 ， 
在 尺度 的 高 层 中 ( o 大 )， 仅 那些 大 特征 是 可 见 的 。 当 在 这 章 中 讨论 小 波 时 ， 我 们 还 将 看 到 关 
于 尺度 空间 的 更 多 细节 。 





图 5-10 一 种 高 斯 金字 塔 ， 通 过 在 每 一 层 上 用 高 斯 图 5-11 这 个 拉 普 拉 斯 金字 塔 实际 上 是 
模糊 后 进行 2:1 的 子 采样 进行 构造 而 得 通过 一 个 高 斯 差分 运算 得 到 的 


5.9.1 四 义 树 


Uu x b (quad tree) [5.21] 是 一 种 数据 结构 ， 在 这 种 结构 下 ， 图 像 以 递归 的 方式 被 分 成 4 
块 ， 并 对 应 于 树 结构 的 节点 ， 这 四 个 部 分 被 标记 成 西北 (NW)、 东 北 (NE)、 西 南 (SW) 和 
东南 (SE)。 树 节点 和 图 像 的 对 应 关系 可 以 通过 一 个 图 例 很 好 地 表示 出 来 ( 见 图 5-12)。 

在 对 二 值 图 像 编码 的 过 程 中 ， 可 以 很 直接 得 到 产生 图 像 四 又 树 的 方法 : 如果 四 叉 树 中 一 
幅 图 是 均匀 的 《〈 纯 黑 或 纯 白 ) ， 则 令 它 为 一 个 叶 节 点 ， 否 则 将 它 分 成 四 份 并 在 四 又 树 中 再 加 入 
一 层 。 递 归 重 复 上 述 过 程 直到 图 像 块 成 为 像素 大 小 或 成 为 均匀 区 域 。 
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图 5-12 一 幅 图 像 被 分 成 4 块 。 每 一 个 不 均匀 的 图 像 块 将 被 继续 分 割 。 这 种 分 割 可 以 用 树 结构 来 表示 


将 四 又 树 集成 到 金字 塔 结构 中 是 一 件 很 容易 的 事情 ， 对 于 每 个 节点 ， 仅 需要 保存 它 所 有 
子 节 点 的 均值 ， 这 样 金 字 塔 中 所 有 的 信息 就 存 人 四 又 树 里 了 。 

如 果 图 像 有 很 大 一 部 分 区 域 是 均匀 的 ， 那 么 采用 四 又 树 似 乎 是 一 种 很 有 效 的 存储 和 传输 
方式 。 然 而 通过 对 各 种 图 像 进行 实验 ， 即 使 是 视频 中 两 帧 间 的 差分 图 像 ， 这 种 看 靶 也 不 一 定 
正确 。 既 然 差分 图 像 仅 在 物体 运动 的 部 分 不 是 零 ， 而 大 部 分 的 区 域 都 是 零 ， 那 么 似乎 显然 可 
以 得 出 四 又 树 是 一 种 很 有 效 的 图 像 存 储 方式 的 结论 。 其实 并 非 如 此 ， 即 使 在 那 种 情况 下 ， 管 
理 树 结构 的 开销 也 超过 了 存储 带 来 的 收益 。 所 以 ， 令 人 惊讶 的 是 ， 四 又 树 也 不 是 一 种 有 效 的 
图 像 压缩 技术 。 人 得当 其 作为 表示 金字 塔 的 一 种 于 入 时 ， 在 表示 尺度 空间 时 仍 有 优势 。 

采用 四 又 树 的 另外 一 个 缺点 是 ， 物 体 的 微小 移动 将 导致 树 结构 的 巨大 变化 ， 也 就 是 说 ， 
树 结构 并 不 具有 旋转 不 变性 和 平移 不 变性 。 事 实 上 ， 它 甚至 是 不 鲁 棒 的 ， 这 里 “和 鲁 棒 ”是 指 
物体 的 小 位 移 只 在 表示 上 相应 地 产生 微小 的 变化 。 采 用 四 又 树 表 示 每 个 物体 的 子 图 像 ， 而 不 
是 整个 图 像 ， 可 以 在 某 种 程度 上 避 开 这 种 缺点 。 

四 又 树 拓 展 到 三 维 就 叫做 “ 八 又 树 ”， 同 样 的 原理 在 那里 也 是 适用 的 。 


5.9.2 高 斯 尺度 结构 


我 们 已 经 知道 如 何 模糊 一 幅 图 像 。 想 像 一 个 实验 : 对 于 一 幅 图 像 ， 采 用 一 个 标准 差 为 1 的 高 
斯 核算 子 对 它 进行 模糊 处 理 ， 可 以 得 到 一 幅 新 图 像 ， 称 其 为 图 像 1; 采用 一 个 标准 差 为 2 的 高 斯 核 
算 子 对 原 图 进行 模糊 ， 称 所 得 图 像 为 图 像 2; 继续 这 个 操作 ， 可 以 得 到 一 组 图 片 。 你 可 以 将 它们 
看 作 是 一 个 堆栈 ， 越 上 面 的 图 像 模糊 得 越 厉害 。 我 们 称 顶 层 图 像 为 原 图 像 的 “大 尺度 ”表示 。 显 
然 ， 并 不 一 定 需 要 采用 整数 值 的 标准 和 偏差， 因此 可 以 以 任何 需要 的 分 辩 率 来 建立 尺度 空间 。 尺 度 
空间 表示 的 基本 前 提 是 可 以 在 不 同 尺度 上 跟踪 某 些 图 像 特 征 ， 而 这 些 特 征 在 不 同 的 尺度 上 的 变化 
能 够 体现 出 图 像 的 某 些 性 质 。 在 [5.25，5.26] 中 较 规范 地 定义 了 尺度 空间 ， 它 具有 如 下 属性 : 

“所 有 信和 号 应 该 在 同一 个 定义 域 中 被 定义 (没有 金字 塔 )。 

“ 随 着 尺度 参数 的 增长 ， 输 出 (图像 ) 的 表示 应 该 越 来 越 粗 。 

“一 个 信号 在 较 粗 的 层次 中 包含 的 结构 ， 要 比较 细 的 层 中 少 。 如 果 将 局 部 极 值 看 作 平滑 度 的 

一 种 度量 ， 那 么 随 着 尺度 变 粗 ， 极 值 是 非 增 的 。 这 种 属性 称 为 “尺度 空间 的 因果 关系 ”。 

* 所 有 的 表示 都 应 该 通过 在 原 图 上 应 用 一 个 卷 积 核算 子 来 产生 。 

最 后 一 条 性 质 当 然 是 有 争议 的 。 因 为 卷 积 在 形式 上 需要 一 个 线性 、 空 间 不 变 的 算 子 。 实 
现 尺 度 空间 的 一 种 有 趣 方法 是 ， 采 用 灰 度 值 (gray scale) 数学 形态 学 方法 ， 使 用 逐渐 变 大 的 
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结构 元 素 进 行 平滑 ， 这 可 以 避免 卷 积 所 需 的 条 件 。 

尺度 空间 的 概念 除了 可 以 表示 亮度 之 外 ， 还 可 以 用 来 表示 纹理 [4.16]， 甚 至 也 可 以 表示 概 
RREAK (在 这 种 情况 下 ， 尺 度 空间 的 表示 方法 成 为 了 一 种 聚 类 算法 [5.24])。 在 课程 中 ， 
我 们 还 将 看 到 一 些 采 用 尺度 表示 的 例子 

尺度 空 : 间 表 示 最 有 趣 的 方面 之 _， 是 我 们 的 老 朋友 高 斯 的 性 能 问题 。 当 被 用 作 核算 子 的 
时 候 ， 高 斯 的 二 阶 导数 (二 维 情况 下 ， 为 高 斯 的 拉 普 拉 斯 算 子 ;LOG ) 被 证 明 具 有 很 好 的 性 质 。 
尤其 值得 注意 的 是 LOG 的 过 零点 可 以 很 好 地 指出 边缘 位 置 。 有 人 很 容易 会 问 : “高 斯 是 不 是 一 
种 最 好 的 平滑 算 子 ， 用 它 生成 尺度 空间 需要 的 核算 子 ? ” 另 一 种 说 法 是 : 我 们 需要 这 么 一 种 
核算 子 ， 在 更 大 的 尺度 下 ， 它 的 两 阶 导数 不 会 产生 出 新 的 过 零点 。 事 实 上 ， 在 以 后 更 一 般 的 
形式 下 ， 我 们 可 以 表述 这 个 需求 。 

如 果 在 一 个 点 ， 某 算 子 具有 极 值 ， 最 大 值 或 最 小 值 ， 则 定义 该 点 为 “特征 点 " 。 尺 度 空间 
因果 关系 的 概念 表明 ， 随 着 尺度 的 增 大 ， 图 像 将 越 来 越 模糊 ， 将 不 会 产生 新 的 特征 ， 高 斯 则 
是 具有 这 种 属性 [5.1，5.2] 的 唯一 的 核算 子 〈 线 性 算 子 )。 人 们 还 研究 了 非 线性 算 子 在 什么 样 
的 条 件 下 ， 具 有 尺度 空间 因果 关系 [5.22]。 

下 面 的 例子 将 阐述 尺度 空间 因果 关系 的 思想 。 图 5-13 是 在 图 像 中 沿 一 条 直线 方向 的 亮度 

een 
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a) b) 
图 5-13 a) 图 像 中 沿 扫 描 线 方向 的 亮度 曲线 。b) 扫描 线 的 尺度 空间 表示 。 
向 下 为 尺度 增加 的 方向 ， 可 见 从 上 到 下 ， 没 有 增加 新 的 特征 


曲线 ， 而 尺度 空间 是 通过 在 直线 方向 上 用 一 个 一 维 且 方差 逐渐 增 大 的 高 斯 进行 模糊 得 到 的 。 
在 图 5-14 中 ， 可 以 看 到 高 斯 的 拉 普 拉 斯 算 子 ， 以 及 拉 普 拉 斯 算 子 改变 正 负 号 的 点 。 该 例子 中 


高 斯 模糊 方差 逐渐 增 大 Perea dani. 拉 斯 算 子 的 过 零点 





图 5-14 尺度 空间 表示 的 拉 普 拉 斯 算 子 以 及 拉 普 拉 斯 算 子 的 过 零点 。 因 为 
这 是 一 维 数据 ， 因 此 拉 普 拉 斯 算 子 和 二 阶 导 数 没 有 区 别 
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的 特征 点 ， 也 就 是 过 零点 (是 很 好 的 候选 边缘 ) 显示 在 右 图 。 随 着 尺度 增 大 可 以 看 到 ， 特 征 
点 《这 种 情况 下 为 过 零点 ) 并 不 随 着 尺度 增 大 而 增多 。 从 上 ( 低 尺 度 ) 到 下 (SRE), 一 些 
特征 消失 了 ， 但 并 没有 新 的 特征 产生 。 

这 个 思想 的 一 种 很 显然 的 应 用 是 在 图 像 中 用 它 来 识别 重要 的 边缘 ， 为 了 达到 这 个 目的 ， 
我 们 可 以 沿 尺度 进 行 上 调 ， 找 到 那些 边 ， 然 后 跟踪 它们 到 低 尺 度 上 去 。 


5.10 量化 边缘 检测 算 子 的 精确 性 


在 设计 边缘 检测 算法 的 时 候 有 很 多 种 选择 ， 因 此 ， 需 要 一 些 客观 的 方法 来 评价 一 个 边缘 
检测 算 子 是 否 比 别 的 算 子 性 能 更 好 。Pratt[5.33] 提 出 了 一 个 简单 的 公式 来 解决 这 个 问题 ， 这 个 
公式 是 在 边缘 点 上 求 和 : 

pei yt 
ly 4f1+ad 


这 里 六 =max(l, L), Ij 定义 为 检测 到 边缘 点 的 数目 ， 而 1 为 图 像 中 实际 的 边缘 点 个 数 。 


(5-36 ) 


需要 知道 边缘 点 真实 位 置 的 信息 。 因 此 ， 它 的 一 种 重要 用 途 是 应 用 于 合成 数据 ， 因 为 仅 在 这 
种 数据 中 可 以 很 明确 地 知道 边缘 点 的 实际 位 置 ( 见 [5.4] )。 


5.11 人 们 的 做 法 


两 位 神经 生理 学 家 David Hubel 和 Thorsten Wiesel[5.13，5.14] 在 大 脑 中 ， 特 别 是 在 视觉 皮 
层 中 插 了 一 些 电极 一 一 先是 猫 然 后 是 猴子 。 他 们 在 记录 神经 细胞 的 兴奋 信息 时 ， 给 这 些 动物 
以 各 种 视觉 刺激 。 他 们 观察 到 了 一 些 吸引 人 的 结果 : 首先 ， 某 些 细胞 仅 在 观察 到 某 种 图 案 时 
才 出 现 兴 奋 。 比 如 ， 有 种 特殊 的 细胞 仅 当 它 在 观察 到 一 条 在 某 个 特定 角度 从 亮 到 暗 的 边缘 时 
才 兴 奋 。 有 证 据 表 明 ， 他 们 测量 的 每 个 细胞 都 可 以 从 邻 域 得 到 输入 ， 这 就 是 所 谓 的 “感受 野 ”。 
有 不 同类 型 的 感受 野 ， 它 们 可 能 都 连 到 同一 种 光线 检测 器 ， 它 们 的 组 合 可 以 实现 边缘 检测 和 
其 他 一 些 操作 的 功能 。Jones 和 Palmer[5.17] 仔 细 地 绘制 了 这 些 感受 野 函 数 ， 确 定 这 些 感 受 野 函 
数 可 以 用 Gabor 函 数 精确 地 表示 ， 这 些 Gabor 函 数 具 有 式 (5-37) 的 形式 : 


G(x,y) = (5-37) 





2 2 
nop ev| (2 * x) exp(i[ Ex + vy]) 

第 一 个 指数 项 是 个 二 维 的 高 斯 ， 它 的 等 亮度 线 为 以 、y 轴 为 长 短 轴 的 椭圆 。( 如 果 恰 好 碰 
到 关于 x、? 轴 倾斜 的 感受 野 ， 就 需要 旋转 坐标 系统 来 使 这 个 等 式 成 立 。) 第 二 个 (复数 ) 指数 
项 代表 了 一 个 平面 波 。 式 (5-37) 假定 原点 在 高 斯 中 心 。 图 5-15 夯 的 是 一 个 Gabor 滤 波 器 。 

HA (5-37) 的 参数 能 在 活 的 生物 中 测量 到 的 时 候 ，[5.23] 观 测 到 了 关于 这 些 参 数值 的 如 
下 有 趣 的 现象 : 

* 椭圆 的 长 短 轴 之 比 B/a 为 2:1， 

“ 平面波 有 治 椭圆 短 轴 传 播 的 倾向 。 

* 频率 响应 的 半幅 带宽 大 约 为 沿 最 优 方向 的 1 到 1.5 个 倍 频 。 


O ”我 们 本 来 想 在 这 里 讲 一 只 死 猎 的 笑话 、 像 “在 试验 过 程 中 的 一 只 猫 死 了 、 但 它 的 行为 却 是 不 会 改变 的 ”， 
但 出 版 商 告诉 我 们 这 将 冒犯 一 些 人 ， 所 以 我 们 不 得 不 将 他 们 取消 了 。 
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图 5-15 Gabor 滤 波 器 。 注 意 : 它 的 正 、 负 响应 与 本 章 前 面 我 们 所 推导 的 那些 十 分 相似 


那么 在 我 们 的 大 脑 中 有 Gabor 滤 波 器 吗 ? 或 者 是 类 似 于 Gabor 的 小 波 发 生 器 ?我们 并 不 了 
解 你 的 大 脑 ， 但 是 Young[5.41] 已 经 发 现 了 哺乳 动物 视网膜 对 刺激 反应 的 特点 ， 并 且 观 察 到 ， 
那些 能 够 用 Gabor 滤 波 器 或 小 波 进行 建 模 的 感受 野 ， 也 一 样 可 以 用 所 谓 的 “ 偏 移 高 斯 的 差分 ” 
的 核算 子 进行 描述 ， 这 些 核 算 子 实质 上 是 带 有 高 斯 偏 移 的 LOG 算 子 。 图 5-16 描 述 了 一 个 Gabor 
和 四 阶 高 斯 导数 的 一 段 波形 ， 可 以 看 到 它们 之 间 有 很 明显 的 差别 ， 最 主要 的 一 个 是 Gabor 的 波 
纹 可 以 持续 增加 ， 而 四 阶 导数 则 仅 有 3 个 极 值 。 然 而 ， 由 于 神经 学 实验 的 精度 有 限 ， 它 们 是 相 
同 的。 问题 只 不 过 是 由 于 数据 的 度量 不 够 精确 ， 以 致 于 有 许多 曲线 可 以 拟 合 它 。 

Gabor 国 数 
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四 阶 高 斯 导数 
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图 5-16 高 斯 滤波 器 的 一 段 和 高 斯 四 阶 导 数 相似 片断 的 比较 
问题 的 实质 在 于 ， 对 于 大 脑 的 工作 原理 我 们 还 没有 任何 线索 ， 而 且 事实 上 我 们 对 于 
视网膜 的 了 解 也 不 是 很 多 。 因 此 就 出 现 了 有 两 三 个 数学 模型 能 对 感受 野 的 行为 进行 建 模 
的 情况 。 








5.12 结论 


在 这 章 中 并 没有 显 式 地 利用 一 致 性 ， 然 而 在 作业 10.1 中 ， 将 可 以 看 到 一 个 利用 一 致 性 进行 
边缘 检测 的 例子 。 在 那个 问题 中 ， 将 要 求 你 设计 一 个 算法 ， 该 算法 利用 了 相 邻 的 边缘 点 具有 
平行 的 梯度 方向 这 个 信息 ， 也 就 是 说 ， 如 果 像 素 A 与 像素 B 相 邻 ， 那 么 在 A 点 处 的 梯度 方向 与 
B 点 处 的 梯度 方向 平行 〈 或 几乎 平行 )， 这 就 增加 了 两 个 像素 属于 同一 条 边 的 可 信和 度 。 

在 这 一 章 ， 我 们 讨论 了 一 些 推导 核算 子 的 方法 ， 当 将 这 些 核算 子 应 用 到 图 像 中 去 的 时 候 ，， 
将 对 各 种 类 型 的 边缘 产生 很 强 的 反应 。 

“应 用 了 导数 的 定义 。 

* 通过 最 小 化 误差 平方 和 ， 采 用 解析 函数 拟 合 曲面 。 

* 将 子 图 像 转换 为 向 量 ， 并 将 这 些 向 量 对 一 组 特定 的 基 向 量 做 投影 ， 而 这 组 基 向 量 则 刻画 

了 类 似 于 边缘 的 特征 。 

“利用 了 核算 子 的 线性 性 质 ， 通 过 达到 交换 模糊 和 差分 的 顺序 来 构造 核算 子 ， 它 们 是 一 些 

特殊 的 模糊 核算 子 的 导数 。 我 们 采用 约束 优化 的 方法 和 拉 格 朗 日 乘 子 法 来 解决 这 个 问题 。 





5.13 术语 
基 向 量 basis vector 
卷 积 convolution 
相关 correlation 
Gabor 滤 波 器 Gabor filter 
图 像 梯度 image gradient 
内 积 inner product 
核算 子 kernel operator 
bite BAH RT Lagrange multiplier 
字典 序 lexicographic 
线性 算 子 linear operator 
对 数 LOG 
投影 projection 
金字 塔 pyramid 
Vg s Br quad tree 
尺度 空间 scale space 
误差 平方 和 sum-squared error 
作业 5.1 


前 一 市 讲 了 如 何 通 过 拟 合 一 个 平面 来 估计 一 阶 导 数 ， 显 然 这 种 方法 对 于 二 阶 导数 不 起 作 


用 ， 因 为 一 个 平面 的 二 阶 导 数 处 处 为 零 。 但 采用 双 二 次 函数 ， 用 同样 的 方法 : 


那么 令 [a b c d e]'-A 


f(x,y) = ax? + by! cex «dy ee 


Ix? y? x y =x 
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求 用 来 估计 Lies x 3 的 核算 子 。 
X 
作业 5.2 


这 是 上 个 作业 的 另 一 部 分 ! 


(这 比 上 面 那 题 简单 多 了 一 一 易如反掌 )。 采 用 同样 的 方法 ， 
利用 平面 方程 ， 求 一 个 5 x 5 的 核算 子 ， 来 估计 其 中 点 位 置 的 95. 
X 


作业 5.3 
- 判断 图 5-4 中 的 wj 和 ww 实际 上 是 否 正 交 归 一 。 如 果 不 正 交 ， 推 荐 一 种 修改 方案 或 其 他 方法 ， 
3 | 使 得 我 们 所 有 人 都 可 以 把 它 用 作 基 图 数 。 
作业 5.4 


D) 编写 一 个 程序 ， 产 生 如 下 所 示 64 x 64 的 图 像 ， 图 像 应 该 包含 均匀 的 亮度 区 域 ， 其 尺寸 
和 亮度 如 图 所 示 。 并 将 它 存 成 一 个 文件 ， 同 时 取 名 为 “SYNTHI 





>! 
<> 
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2) 编写 一 个 能 读 取 SYNTHI 的 程序 ， 并 应 用 以 下 模糊 核算 子 ， 将 结果 写 入 文件 “BLUR1 


1/10} 











3) 将 方差 为 c=9 的 高 斯 随机 噪声 加 到 BLUR1， 并 将 结果 写 入 文件 “BLUR1.V1”。 
作业 5.5 


编 一 段 程序 ， 将 下 面 两 个 核算 子 (参考 关于 苏 贝尔 算 子 的 文献 ) 作 用 于 图 像 SYNTHI 
BLUR1 和 BLURI1.V1。 








为 达到 这 个 目的 ， 执 行 如 下 操作 : 











1) YEA, 作用 于 输入 图 像 ， 并 将 结果 在 内 存 中 存 成 临时 文件 〈 记 住 数 可 以 是 负 的 )。 

2) 将 h, 作 用 于 输入 图 像 ， 并 将 结果 在 内 存 中 存 成 另 一 个 矩阵 。 

3) 计算 第 三 个 矩阵 ， 使 得 该 矩阵 中 每 个 点 都 是 刚才 存 的 两 个 矩阵 相应 点 的 平方 和 。 最 后 
对 每 个 点 开 方 ， 并 保存 结果 。 

4) 检查 得 到 的 值 。 大 致 上 高 的 值 预示 着 有 边缘 存在 。 选 择 一 个 阔 值 并 计算 一 幅 新 的 图 像 ， 
使 图 像 在 边缘 强度 高 于 阔 值 的 地 方 为 1 ， 其 余 为 0。 

5) 对 加 了 噪声 的 模糊 图 像 进行 1)~4) 同 样 的 操作 。 

6) 写 一 篇 报告 。 并 打印 所 有 三 幅 二 值 输出 图 像 。 是 否 有 边缘 点 丢失 了 ? 是 否 有 点 被 人 为 
地 加 进来 了 ? 是 不 是 有 些 边 太 粗 了 ? 讨论 结果 对 于 噪声 、 模 糊 和 效 值 选取 的 敏感 性 。 

要 彻底 ， 这 是 一 个 研究 性 的 课程 ， 不 仅 要 正确 地 达到 作业 的 最 低 要 求 ， 也 需要 创新 性 并 
探索 新 的 想法 。 


作业 5.6 
在 作业 5.2 中 ， 推 导 了 一 个 5 x 5 的 核算 子 。 对 于 8/0x 和 3/9y， 利 用 这 个 核算 子 重复 作业 5.5。 
作业 5.7 


1) 验证 我 们 在 式 (5-30) 中 所 做 的 推导 。 求 一 个 3 x 3 的 核算 子 ， 使 之 能 实现 式 (5-30) 
中 高 斯 导数 的 垂直 边缘 算 子 。 令 o=1 和 co=2， 并 求 出 这 两 个 核算 子 。 重 复 如 上 过 程 求 5 x 5 
的 核算 子 。 讨 论 选取 不 同 的 o 以 及 核算 子 的 大 小 所 产生 的 影响 。 假 设 核算 子 可 以 包含 实数 
GFA). 

2) 假定 核算 子 只 能 包含 整数 ， 求 能 近似 产生 同样 效果 的 核算 子 。 


作业 5.8 


在 5.7 节 ， 讨 论 了 对 于 求 离散 高 斯 核算 子 有 用 的 参数 。 求 o 的 值 ， 使 之 在 x= - 1 和 x=1 处 二 
阶 导数 达到 最 大 。 此 时 o 21/4319? 


作业 5.9 
用 多 项 式 拟 合 的 方法 来 估计 62z7 /9y*。 下 面 哪个 多 项 式 最 合适 : 
a) f = ax? + by + cxy c) f = ax? + by! +exy 


b) f ax! «by! +cxy+d d) f ax ebysc 


作业 5.10 


用 下 面 的 表达 式 拟 合 一 个 3 x 3 邻 域内 像素 点 的 值 ，fx, y)=ax?+bx+cytd。 从 这 个 拟 合 来 
出 能 估计 关于 x 的 二 阶 导数 的 核算 子 ， 


作业 5.11 


用 函数 /=ax+by*+cxy 来 求 一 个 能 估计 33 /3y? 的 核算 子 。 下 面 哪个 是 产生 的 核算 子 ? GE 
意 : 下 面 的 结果 没有 包括 尺度 因子 。 因 此 ， 下 面 最 佳 值 将 是 正确 答案 的 倍数 。) 














作业 5.12 
假设 估计 50x3y 的 核算 子 为 : 





(用 这 个 核算 子 来 估计 这 个 导数 可 能 并 不 正确 ， 但 它 却 并 不 影响 结果 。 假 定 它 是 正确 的 。) 
那么 用 





来 估计 (628axay)? 正 确 吗 ”对 你 的 结果 进行 解释 。. 
专题 5A 边缘 检测 器 


边缘 检测 的 过 程 并 不 仅仅 是 对 梯度 简单 地 取 个 阔 值 ， 我 们 需要 更 精确 地 知道 边缘 的 位 置 ， 
而 不 只 是 对 梯度 简单 地 取 个 阔 值 后 加 以 检测 。 在 这 个 领域 里 有 两 种 著名 的 方法 : “Canny 边 缘 
检测 器 ” [5.6] 和 “小 平面 模型 ”[4.18]。 这 里 我 们 只 讨论 Canny 边 缘 检 测 器 。 


5A.1 Canny 边 缘 检 测 器 


边缘 检测 算法 首先 要 求 出 每 个 点 的 梯度 值 。Canny 采 用 了 2 x 2 而 不 是 像 我 们 所 用 的 3 x 3 的 
算 子 ， 但 这 并 不 影响 这 方法 的 原理 。 一 旦 我 们 有 了 两 个 偏 导数 的 估计 值 ， 就 可 以 利用 从 
(522) 到 (5.24) 的 公式 计算 出 梯度 的 大 小 和 方向 ， 得 到 两 个 图 像 ， M(x, y) 和 THETA (x, y). 
现在 就 可 以 很 容易 判断 哪些 像素 点 位 置 具有 大 的 梯度 值 。 然 而 这 并 不 够 ， 因为 我 们 需要 细 化 
幅度 矩阵 ， 仅 留 下 最 大 值 ， 并 求 得 一 个 新 的 图 像 NOxr,， 门 。 这 个 过 程 称 之 为 非 最 大 值 抑制 
(NMS) 9, 

实现 NMS 有 很 多 种 方法 ， 然 而 主要 的 思想 如 下 : 首先 ， 初 始 化 N(x， YMERSFM(x, y). 
然后 对 于 每 个 点 (x, y)， 在 梯度 方向 和 反方 向 各 找 一 个 像素 点 。 如 果 MM(x， 站 (问题 中 的 点 ) 不 

是 3 个 点 中 最 大 的 ， 则 将 N(x, y) 置 90， 否则 的 值 不 变 。 


O ”抑制 非 最 大 值 有 时 候 用 复数 形式 (nonmaxima suppression) 来 写 。 表达 式 意思 比较 含糊 ， 它 可 能 包含 压制 每 
个 不 是 最 大 值 的 点 ， 或 压制 所 有 不 是 极 大 值 的 点 。 我 们 选择 采用 单数 形式 (nonmaximum suppression), 
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NMS 之 后 ， 我 们 就 得 到 了 正确 定位 的 边缘 ， 而 且 仅 为 单 像素 宽 。 然 而 这 些 新 边缘 仍然 存 
在 我 们 以 前 所 指出 的 那些 问题 一 一 因 噪 声 (错误 命中 ) 而 产生 额外 的 边缘 点 ， 或 者 因为 模糊 
或 噪声 (错误 丢失 ) 丢失 边缘 点 。 使 用 双 阔 值 的 方法 可 以 进行 改进 。 用 两 个 阔 值 和 T+,， 其 中 
nl EA E. RASERAS RNG, y) 产 生 两 幅 二 值 边缘 图 ， 分 别 定义 为 Ti 和 7T,。 
因为 五 由 低 装 值 产生 , 它 比 起 7 来 有 更 多 的 误 检 率 。 于 是 也 中 的 点 被 看 作为 真实 边缘 的 一 部 分 。 
将 中 相连 的 点 复制 输出 到 一 幅 边 缘 图 像 ， 找 到 每 条 边 的 端点 ， 并 在 Ti 中 寻找 它 的 延长 部 分 ， 
直到 与 7 中 另外 一 个 边缘 点 相连 为 止 ， 否 则 认为 TI 中 没有 与 之 相连 的 边 。 

在 [5.6] 中 Canny 也 阐述 了 一 些 灵活 的 近似 方法 ， 可 以 明显 加 快速 度 。 


5A.2 改进 边缘 检测 


Tagare 和 deFigueiredo[5.34] 描 述 了 边缘 检测 的 过 程 ， 如 下 : 

1) 用 一 个 滤波 器 对 输入 图 像 进 行 卷 积 ,平滑 地 对 输入 图 像 进行 微分 ， 使 得 在 边缘 位 置 和 
边缘 位 置 附近 产生 较 大 的 值 。 输出 的 g(x) 是 微分 了 的 阶 跃 边界 和 过 滤 处 理 了 的 噪声 之 和 。 

2) 用 一 种 决策 机 制 将 滤波 器 输出 明显 高 于 由 噪声 引起 的 区 域 隔 离 出 来 。 

3) 用 一 种 机 制 识别 在 隔离 区 域 中 的 g(x) 导 数 的 过 零点 ， 并 指定 其 为 边缘 位 置 。 

高 斯 低 通 滤波 器 作用 之 后 可 以 (在 亚 像 素 分 辨 素 级 ) 精确 地 找到 (CET) 导数 的 过 零点 ， 
从 而 找到 边缘 的 精确 位 置 ， 但 这 仅 当 边缘 是 直 的 情况 才 有 效 [5.38]。 如 果 边 缘 是 弯曲 的 ， 则 会 
引入 误差 。 比 如 ， 梯 度 方 向 的 二 阶 导数 (SDGD ) 和 拉 普 拉 斯 算 子 在 估计 边缘 位 置 时 都 将 产生 
误差 , 但 有 趣 的 是 ,它们 的 方向 是 相反 的 , 受 其 启发 Verbeek 和 van Vliet[5.38] 提 出 了 一 种 算 子 ， 
这 种 算 子 是 两 者 的 组 合 。 

为 了 更 好 地 找到 实际 边缘 的 位 置 ， 在 这 节 中 引用 和 描述 的 所 有 方法 都 是 在 边缘 法 线 方向 
做 信号 处 理 [5.18]。 Taratorin 和 Sideman[5.35] 提 出 了 一- 种 利用 已 知 的 图 像 属 性 ， 如 它 是 正 的 和 
有 限 支持 的 ， 来 估计 导数 。Iverson 和 Zucker[5.15] 通 过 加 入 逻辑 /布尔 推理 来 改进 Canny 方 法 的 
结果 。 这 比 起 对 导数 取 简 单 的 阔 值 来 提高 了 边缘 检测 的 效果 ， 但 其 结果 没有 动态 轮廓 模型 ( 见 
第 9 章 ) 和 优化 方法 (第 6 章 ) 好 。 此 外 ， 关于 将 信号 处 理 技术 应 用 于 边缘 检测 的 [5.36] 文 章 还 
有 很 多 。 

通过 查阅 关于 生物 图 像 系 统 的 文献 可 以 发 现 ， 从 20 世 纪 60 年 代 Hubel 和 Wiesel 所 做 的 先驱 
性 工作 以 来 ， 所 有 的 方法 都 认为 ， 生 物 系统 分 析 图 像 是 采用 局 部 度量 来 量化 方向 、 尺 度 和 运 
动 信息 的 。 根 据 这 种 观点 ， 假 定 我 们 想 问 这 样 的 问题 : “在 这 点 的 6 方向 是 否 有 一 条 边 ? ” 那 
么 我 们 该 如 何 构造 一 个 核算 子 ， 使 之 在 那个 方向 对 边缘 有 很 强 的 敏感 性 呢 7 一 种 直接 的 方法 
[5.37] 就 是 构造 两 个 高 斯 一 阶 导数 核算 子 的 加 权 和 G, 和 G,， 采 用 如 下 的 加 权 形式 : 

G, = G, cos0 + G, sin (5-38) 

不 幸 的 是 ， 除 非 采用 相当 大 的 核算 子 ， 否 则 采用 这 种 方法 得 到 的 核算 子 在 方向 选择 性 方 
面 更 差 。 如 果 我 们 希望 在 尺度 上 进行 微分 ， 问 题 将 变 得 更 糟糕 ， 因 为 为 了 最 小 化 计算 时 间 ， 
尺度 空间 表示 经 常 做 粗略 的 计算 。 为 此 ， Perona[l5.31] 提 出 了 一 种 方法 来 解决 这 些 问题 。 
5A.3 从 边缘 点 推理 线段 


在 选择 了 最 好 的 算 子 来 估计 导数 ， 选 择 了 最 佳 的 益 值 ， 以 及 对 边缘 位 置 做 了 最 佳 估计 之 
后 ， 我 们 只 得 到 了 一 组 点 〈 像 素 )， 其 中 一 部 分 被 认为 可 能 是 边缘 的 一 部 分 而 加 了 标记 。 如 果 
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这 些 点 是 毗邻 的 ， 就 可 以 从 一 个 点 “ 走 ” 到 另 一 个 点 ， 最 后 环绕 出 一 个 区 域 。 有 一 些 表达 方 
法 ， 如 “ 链 码 ”"， 可 以 使 这 个 过 程 变 得 简单 。 然 而 ， 点 是 不 可 能 像 我 们 所 希望 的 那 种 方式 连接 
的 ， 一 些 点 会 因为 模糊 、 噪 声 或 部 分 遮挡 而 缺失 。 有 许多 方法 可 以 解决 这 个 问题 ， 包 括 松弛 
标号 和 参数 变换 ， 这 两 种 方法 都 将 在 本 书 中 讨论 。 另 外 ， 有 一 些 组 合 方法 ， 璧 如 Deng 和 
Iyengar[5.11] 的 工作 就 综合 了 松弛 法 和 贝 叶 斯 方法 ， 还 有 一 些 其 他 方法 [5.29]， 这 里 因为 篇 幅 
有 限 就 不 展开 讨论 了 。 


5A.4 空域 频率 表示 


小 波 非常 重要 ， 但 是 完全 探讨 这 个 领域 超出 了 本 书 的 范围 。 因 此 这 里 我 们 仅 提出 一 个 相当 
基本 的 描述 ， 并 提供 了 一 些 参考 文献 。 例 如 Castleman[4.6] 中 就 有 一 章 关 于 小 波 的 ， 值 得 读 一 下 。 


5A.4.1 使 用 小 波 的 原因 

观察 图 5-17 中 的 图 像 。 显 然 ， 在 图 像 不 同 的 地 方 ， 空 域 频率 是 不 一 样 的 。 傅 里 叶 变 换 没 
有 同时 获得 表示 频率 和 位 置 这 种 直觉 需要 的 功能 。 图 像 的 傅 里 叶 变 换 
是 一 个 二 维和 矩阵 ， 表 示 整 个 图 像 在 每 个 空域 频率 的 能 量 值 。 显 然 ， 因 
为 傅 里 叶 变换 是 可 逆 的 ， 它 得 到 了 所 有 频率 和 空间 的 信息 ， 但 是 没有 
明显 的 办 法 来 回答 这 个 问题 : 在 每 个 位 置 ， 局 部 的 空域 频率 是 什么 ? 

小 波 方法 在 表示 上 增加 自由 度 。 虽 然 傅 里 叶 变 换 是 完备 且 可 逆 的 ， 
在 原理 上 只 需要 利用 一 个 简单 的 二 ee 但 是 ， 根 据 5.8 
节 描 述 的 空间 /频率 的 思想 ， 我 们 采用 一 个 三 维 (或 更 高 维 ) 的 数据 结 图 5.17 AR Au 
tod ee 化 的 一 幅 图 像 
因此 需要 比 傅 里 叶 变 换 大 得 多 的 存储 空间 。 
5A.4.2 基 小 波 和 小 波 变换 

我 们 定义 一 个 基 小 波 9wyx, y) 为 满足 某 种 准则 的 任意 一 个 含 两 个 空间 变量 x 和 y 的 函数 。 但 
这 里 我 们 不 关注 这 些 准则 ， 我 们 基本 上 是 设计 一 个 关于 原点 对 称 且 几乎 为 有 限 支 持 的 图 数 。 
“几乎 有 限 支 持 ”， 是 指 函数 值 随 着 自 变量 偏离 中 心 而 迅速 衰减 为 0 (通过 允许 的 法 则 定义 的 一 
种 方法 )。 一 个 一 维基 小 波 (如 图 5-18 所 示 )， 即 


y(x)= aE x *yexa(- 3 (5-39) 


从 这 个 小 波 ， 通 过 平移 和 尺度 缩放 可 以 产生 出 一 组 相似 函数 的 集合 。 也 就 是 说 ， 通 过 如 
下 方式 定义 的 一 组 平移 和 尺度 变化 族 (一 维 ): 


yd -TY (=) (5-40) 


通过 对 函数 f 与 一 组 可 能 的 4、b 值 的 小 波 计算 内 积 ， 可 以 得 到 f 的 小 波 变换 : 





W,(a,b)= f FOW ap Odx (5-41) 


e ” 基 小 波 经 常 指 母 小 波 。 
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图 5-18 一 个 基 小 波 ， 以 及 一 个 尺度 变化 所 产生 的 小 波 
可 以 看 出 这 个 变换 是 尺度 和 平移 的 函数 。 这 个 原理 在 二 维 上 也 同样 成 立 ， 此 时 内 积 
为 : 
W, (a,b, +b,) = f FO YW a.0,,0, Qo Y)dxdy (5-42) 


图 5-19 描 述 了 在 a 取 不 同 值 时 W 的 截面 图 。 显然 ， 这 个 处 理 过 程 产生 了 一 个 尺度 空间 的 表示 。 





图 5-19 图 像 原 图 以 及 原 图 与 三 个 不 同 的 二 维 小 波 内 积 的 结果 (从 小 波 变换 截取 的 三 个 层面 ) 
Lee[5.23] 调 查 了 神经 生理 学 的 资料 ， 并 推导 出 了 如 下 形式 的 母 小 波 : 


2 2 2 

y(x,y)= x [esie o-ew[- 5) (5-43) 
其 中 k 是 一 个 常数 ， 它 的 值 依 赖 于 带宽 的 假设 ， 但 近似 等 于 3.3。 对 “ 母 小 波 ” 进 行 缩放 和 平 
移 可 以 产生 一 组 滤波 器 (Frei-Chen 基 集 使 用 同样 的 方法 )， 它 们 表示 一 个 图 像 的 邻 域 在 特征 上 
的 相似 程度 ， 并 完全 可 以 从 中 重 构 出 图 像 。 


5A.5 术语 





Canny 边 缘 检 测 器 Canny edge detector 
非 最 大 值 抑制 Nonmaximum suppression 
小 波 Wavelet 


作业 5.A1 i 
在 高 尺度 层 上 ,只 有 物体 可 以 看 见 。( 填 空 ) 101 
作业 5.A2 


如 下 表达 式 的 估计 值 是 什么 ? (Oh) «(Oh E, Keg ThE X: 
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CECI 
通过 转 置 得 到 hh,。 
选择 最 佳 答 案 : 


a) 关于 x 的 一 阶 导数 (x 为 水 平方 向 ) 
b) 关于 x 的 二 阶 导数 

c) 拉 普 拉 斯 算 子 

d) 关于 y 的 二 阶 导数 

e) 二 次 变 分 


作业 5.A3 


采用 高 类 微分 的 思想 来 推导 一 个 核算 子 。 一 维 高 斯 (PI) 多 要 有 什么 样 的 变量 ， 使 
得 其 一 阶 导数 在 :=+1 处 有 极 值 ”“ 7 .， 3 


V d ntes 
作业 5.A4 ENS 
与 拉 普 拉 斯 算 子 相 比 ， 二 次 变 分 的 优点 是 什么 ? 
作业 5.A5 


4 E=( -Hg) "YHg)。 利 用 线性 算 子 和 箱 阵 形式 的 等 价 性 ， 采 用 核算 子 的 形式 写 出 E 的 表 
达 式 。 
作业 5.A6 


这 个 作业 的 目的 是 让 你 复习 一 遍 构造 图 像 金字 塔 的 过 程 ， 这 样 你 就 可 以 对 这 种 数据 结构 
带 在 的 用 处 有 更 全 面 的 了 解 ， 并 且 可 将 其 应 用 到 编码 和 传输 领域 。 沿 着 这 个 方向 ， 你 可 以 获 
得 关于 图 像 编 码 一 般 领 域 一 些 额外 的 理解 。 编 码 并 不 是 本 书 学 习 的 主要 目的 ， 但 在 你 的 研究 
生涯 中 ， 你 肯定 会 经 常 碰 到 做 编码 的 人 。 拥 有 一 些 对 最 基本 概念 的 大 致 了 解 ， 将 被 证 明 是 非 
常 有 用 的 。 

1) 下 载 图 像 “asterix512.ifs”， 并 验证 它 是 否 真 的 是 512 x 512 的 (利用 它 本 身 的 信息 )。 
如 果 它 不 是 512 x 512 的 ， 首 先 写 个 程序 将 它 填 充 到 那么 大 。 

2) 编写 一 个 程序 , 输入 为 二 维 的 n x n 的 图 像 , 输出 图 像 数 据 格式 一 样 , 而 大 小 为 n/2 x n2. 
程序 取 名 为 “ShrinkByTwo”， 调 用 方式 为 : 

ShrinkByTwo inimg outimg l 

该 程序 不 能 简单 地 对 像素 做 间隔 采样 。 输出 图 像 的 每 个 像素 应 该 为 其 在 给 入 图 像 相应 的 
四 个 像素 的 平均 值 。 注 意 ,输出 图 像 要 求 与 输入 图 像 具 有 相同 的 数据 结构 ， 这 利用 ifscreate 很 
容易 实现 ， 只 需 将 它 第 一 个 参数 设 成 定义 输入 图 像 类 型 的 字符 串 即 可 。 例 如 : ifscreate 
(in->ifsdt, len, IFS_CR_ALL, 0)。 用 你 的 程序 新 建 asterix256、asterix128 、asterix64 和 
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asterix32， 不 用 处 理 低 于 32 x 32 的 图 像 。 上 交 你 的 程序 和 打印 的 图 像 。 

3) 写 一 个 缩放 图 像 的 子 程序 ， 它 应 该 有 如 下 的 调用 格式 : 

ZoomByTwo(inimg, outimg) 

IFSIMG inimg, outimg; 

调用 的 程序 应 该 可 以 对 图 像 进行 新 建 、 读 取 等 操作 。 子 程序 用 一 个 缩放 了 的 inimg 对 
outimg 进 行 简单 的 填充 ， 你 可 以 采用 任何 算法 对 丢失 了 的 像素 进行 填充 。( 我 们 推荐 将 输入 像 
素 的 平均 来 替代 那些 丢失 了 的 像素 。) 

在 处 理 之 前 ， 我 们 需要 考虑 一 个 “金字 塔 编码 器 ” 。 当 你 运行 ShrinkByTwo 时 ， 输 出 的 图 
像 集 是 asterix512 的 金字 塔 表示 形式 。 对 于 一 个 金字 塔 编码 器 ， 目 的 是 采用 人 金字塔 表示 形式 在 
言 道 上 传输 尽 可 能 少 的 信息 。 主 导 思 想 是 这 样 的 : 首先 ， 传 输 所 有 的 asterix32， 然 后 在 传输 
端 和 接受 端 同时 运行 ZoomByTwo 来 产生 一 个 asterix32 的 缩放 图 像 AP: 

ZoomByTwo(a32, a64prime) 

当 我 们 从 asterix64 中 创建 出 asterix32 时 ， 丢 掉 了 一 部 分 信息 ， 这 是 很 难 进行 恢复 的 ， 因 此 
a64prime 与 asterix64 是 不 一 样 的 。 但 如 果 ZoomByTwo (在 图 像 编 码 的 文献 中 称 为 预测 器 ) 非 
党 好， 那么 a64prime 和 asterix64 的 差别 就 很 小 《也 就 是 值 很 小 ， 但 它 仍然 是 64 x 64 的 )。 为 此 ， 
计算 出 a64prime 和 asterix64 的 差分 图 diff64。 如 果 预 测 得 非常 完美 ， 那 么 差分 结果 图 像 就 应 该 
是 值 都 是 0 的 64 x 64 的 图 像 ， 而 这 可 以 以 一 种 灵活 的 方法 进行 编码 (例如 变 长 码 )， 并 以 非常 
低 的 比特 数 进行 传输 。 现 在 让 我 们 将 diff64 传 输 给 接收 端 。 通 过 将 diff64 伙 加 到 由 接收 端 产生 
的 a64prime， 我 们 就 能 纠正 由 预测 器 所 产生 的 误差 , 就 可 以 在 接收 端 得 到 一 个 正确 的 asterix64， 
但 我 们 只 传输 了 diff64。 我 们 很 聪明 ， 是 吧 ? 现在 ， 用 同样 的 方法 ， 可 以 从 asterix64 中 通过 传 
输 diff128 得 到 asterix128， 等 等 。 . 

4) 新 建 上 面 所 述 的 图 像 : diff64. diff128, diff256 和 diff512， 计算 传输 每 一 幅 图 像 所 需要 
近似 的 比特 (bit) 数 。 为 了 做 这 些 计算 : 求 diff64 的 标准 差 ， 接着 取 底 为 2 的 对 数 ， 这 就 是 图 
像 编码 每 个 像素 所 需要 的 平均 比特 数 。 假 设 你 要 直接 传输 asterix512， 那 就 需要 512 x 512 x 8 
个 比特 数 〈 假 定 图 像 是 8 比特 的 一 一 你 最 好 验证 一 下 )。 现 在 ， 将 这 个 结果 与 你 的 金字 塔 编码 
天 相 比较 ， 这 里 的 金字 塔 编码 器 是 通过 将 传输 的 每 幅 差分 图 像 所 有 每 个 像素 的 比特 数 相 加 而 
得 到 的 。 你 的 编码 器 是 不 是 运行 得 很 好 ? 在 报告 中 对 这 个 问题 进行 展开 讨论 。 
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第 6 章 SRA: 复原 与 特征 抽取 


To change, and to change for the better are two different things 

4& I] id 8 
本 章 讨论 的 技术 旨 在 去 除 噪 声 与 抑制 退化 , 以 便 为 图 像 分 割 抽 取出 更 加 清晰 的 特征 。 本 章 
描述 并 比较 了 后 验 的 图 像 复 原 技 术 与 迭代 式 图 像 特 征 抽取 技术 。 图 像 复 原 方法 从 退化 图 像 中 
重 构 出 原始 图 像 [6.3] ， 而 图 像 特 征 抽取 方法 则 是 从 噪声 图 像 中 抽取 特征 ， 例 如 边缘 。 然 而 分 
析 表 明 二 者 执行 的 是 同样 的 基本 运算 : 图 像 松弛 。 在 本 章 “ 专 题 ” 中 , 对 两 种 图 像 特 征 抽取 方 
W., Eh (graduated nonconvexity, GNC) 和 可 变 传 导 率 扩散 (variable conductance 
diffusion, VCD ) ， 以 及 一 种 被 称 为 均值 场 退 火 (mean field annealing, MFA) 的 复原 /特征 抽取 
方法 进行 了 比较 。 它 们 之 间 的 等 价 性 体现 了 能 量 最 小 化 方法 与 空间 分 析 方 法 之 间 的 关系 ， 也 
体现 了 它们 各 自 的 温度 参数 与 尺度 参数 之 间 的 关系 。 本 章 的 结尾 讨论 了 图 像 特征 抽取 方法 可 

遵循 的 通用 原则 。 


6.1 松弛 


“松弛 ”一 词 最 初 用 来 描述 一 组 迭代 数值 方法 ， 用 于 对 联 立 非 线 性 方程 组 求解 (参见 
[6.18] )。Rosenfeld 和 Kak[6.64] 将 这 一 词 的 含义 延伸 为 一 系列 的 迭代 分 类 方法 ， 依 据 的 是 二 者 
之 间 的 相似 性 。 在 这 里 ， 我 们 给 出 “ 恰 弛 ”一 词 的 通用 定义 ， 其 中 既 包 括 了 以 上 这 些 方法 ， 
也 包括 了 一 些 更 新 的 技术 ， 后 者 同时 也 是 本 章 所 讨论 的 重点 内 容 。 

定义 

一 个 松弛 过 程 是 一 个 多 步 算法 ， 它 具备 以 下 性 质 : 1) 每 一 步 的 输出 量 与 输入 量具 有 相同 
的 形式 ， 以 便 算法 可 和 迭代 运行 ; 2) 算法 收敛 至 一 个 有 界 的 结果 。 一 些 研究 者 还 提出 了 第 三 个 
BOR: 对 任 一 元 素 (在 这 里 ， 是 任 一 像素 ) 的 操作 仅 与 该 元 素 的 某 个 有 限 “ 邻 域 ”内 的 像素 
的 状态 相关 ， 这 里 的 “ 邻 域 ” 是 明确 定义 的 。 依 据 这 些 标准 ， 本 章 讨论 的 所 有 算法 都 是 松弛 


6.2 复原 


在 一 个 图 像 复原 问题 中 ， 假 设 一 幅 理 想 图 像 /， 经 退化 后 生成 观测 图 像 s8。 图 像 退 化 的 一 般 
模型 是 一 个 畸变 算 子 与 随机 噪声 相 迭 加 ， 记 上 畸变 算 子 为 D， 则 
g=D(f)+n (6-1) 


其 中 8g=[81, …. gy] 是 对 图 像 8 的 列 向 量 描述 ，g; 表示 第 个 像素 。 对 f 与 4 的 定义 与 之 相似 。 
那么 ,复原 问题 就 是 已 知 观测 图 像 9， 已 知 关于 畸变 (一 般 称 作 “模糊 ) 的 某 种 知识 和 关于 
噪声 的 统计 量 ， 对 /进行 最 佳 估 计 的 问题 。 Ul 

复原 经 常 被 看 作 是 一 个 送 问题 。 即 ， 从 输入 到 输出 是 一 个 过 程 (在 这 里 是 模糊 )。 而 我 们 


- 
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只 能 度量 到 输出 量 ， 并 希望 能 够 从 中 推断 出 输入 量 。 
逆 问 题 与 病态 


一 个 间 题 =D (f), 如 果 

。 对 任 一 上/， 都 存在 一 个 解 8。 

*。 解 8 是 叭 一 的 。 

“了 连续 变化 时 ， 解 8 随 之 连续 变化 。 

则 g=D 0 ) 被 认为 是 “可 解 的 ”。 

一 个 问题 ， 如 果 不 具 备 以 上 条 件 ， 则 被 认为 是 “病态 的 "。 正 常情 况 下 ， 病 态 是 由 问题 的 
病态 条 件 引 起 的 。 一 个 数学 问题 的 条 件 由 输出 量 对 输入 量变 化 的 敏感 弃 来 度量 。 对 一 个 良 态 
条 件 问题 而 言 ， 输 入 量 的 微小 变化 对 输出 量 的 影响 不 大 ; 而 对 一 个 病态 条 件 问题 ， 输 入 量 的 
很 小 变化 也 会 引起 输出 量 发 生 巨大 的 变化 。 

条 件数 (condition number) 是 对 一 个 问题 的 条 件 的 度量 。 条 件数 的 一 般 定义 如 式 (6-2). 
条 件数 越 大 ， 则 问题 越 是 病态 条 件 的 (ill-conditioned): 


_ 输出 量 的 变化 
条 件数 ~ 输入 量 的 变化 (62) 

一 个 线性 系统 Ax=b 的 条 件数 由 和 矩阵 4 的 条 件数 决定 。4 的 条 件数 K 的 定义 如 下 : 
K =||Aj|4"] (6-3) 


- MeBILIGEZUGEX. KOPERE, %)。 当 K>>1 时 ， 这 个 线性 系统 是 病态 条 件 的 。 

ER (6-1) 中 ,假设 已 知 一 个 模糊 过 程 。 看 起 来 似乎 可 以 消除 它 所 产生 的 影响 。 下 面 来 
看 看 为 何 情况 可 能 并 非 如 此 。 

举 个 例子 ， 设 有 一 个 非常 简单 的 图 像 ， 几 平 是 能 够 列举 出 来 的 最 简单 的 图 像 一 一 幅 3 x 3 
的 图 像 ， 并 用 字母 a, …, i 为 每 一 个 像素 命名 。 现 在 ， 假 设 这 个 图 像 经 历 了 一 个 线性 模糊 过 程 ， 
每 个 像素 值 都 替换 成 其 邻 域内 所 有 像素 的 值 的 平均 (假设 采用 了 4 邻 域 定义 )。 在 边缘 或 拐角 
处 的 像素 的 邻 域 像 素 比 较 少 。 如 果 新 的 模糊 图 像 的 值 为 ga, …, gi， 则 它们 与 原始 值 之 间 关 系 
可 以 用 表 6-1 所 示 的 线性 方程 组 来 表示 。 

| 表 6-1 得 到 的 线性 方程 组 

一 

ga= 0.5b4- 0.5d 

gb= 033a4 0.33c+ 0.33e 

gc = 0.5b4- 0.5f 

gd= 0.33a+ 0.33e+ 0.33g 

ge= 0.25b4- 0.25d+ 0.25f+ 0.25h 

gf= 0.33c+ 0.33e4- 0.33 

g= 0.5d+ 0.5h 

gh = 0.33e4- 0.33g+ 0.33i 

gi- 0.5f+ 0.5h 


一 一 


记 作 C = [ga gb gc gd ge gf gg gh gil’, F = [abcdefgh ij. 
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afefe] 
fd jel sl 
je jaja | 
0 05 0 05 0 0 0 0 0 
033 0 033 0 033 0 0 0 0 
0 05 0 0 0 05 0 0 0 
033 0 0 0 033 0 033 0 0 
H=| 0 025 0 025 0 025 0 025 0 
0 0 033 0 033 O 0 0 033 
0 0 0 0.5 0 0 0 05 0 
0 0 0 0 033 0 033 0 0.33 
0 0 0 0 0 05 0 0.5 0 


Tit, CRA AG=HF, 3oüuF-H GAEL RATA. BREE B 
Ri. ROR ARB HO (ERE, AEN), WAH ER, 然后 再 作 
乘法 。 现 在 来 看 看 为 何 这 样 做 可 能 会 有 麻烦 。 首 先 ， 数 值 计算 5H 的 逆 。 但 是 矩阵 求 逆 程 序 告 诉 
我 们 这 个 和 矩阵 是 奇异 的 ， 可 能 无 法 运行 。 那 么 ， 是 我 们 选择 的 模型 不 好 吗 ? 

事实 证 明 ， 设 计 出 一 个 非 奇 异 的 数值 例子 ， 是 很 困难 的 。 当 然 ， 不 是 不 可 能 , 但 的 确 是 困 
难 的 。 关 键 就 在 于 : 即使 叶 变 矩阵 是 非 奇异 的 ， 这 个 问题 仍然 可 能 是 “病态 条 件 的 ”。 

我 们 观测 到 ga, …, gi, FORA yea, io WRAS, WATER 
地 求解 。 然 而 ， 如 工程 师 们 所 知 的 ， 噪 声 事 实 上 总 是 存在 的 ， 因 此 实际 上 观测 到 的 不 是 ga， 
而 是 sa+e， 其 中 s 是 由 于 噪声 而 产生 的 扰动 。 如 果 这 个 系统 〈( 即 畸变 矩阵 ) 是 病态 条 件 的 (而 
它 确实 是 )， 则 ga 的 微小 变化 可 能 会 导致 a, … ;的 估计 值 的 巨大 偏差 。 因 此 ， 即 使 系统 是 线性 
的 ， 简 单 的 矩阵 求 逆 法 亦 不 可 行 。 

男 一 个 或 许 更 为 简单 的 病态 条 件 的 例子 [6.36] 如 下 : 考虑 -- 个 由 模糊 4 描述 的 线性 系统 ， 
以 及 一 幅 未 知 的 图 像 f 和 观测 图 像 ， 它 们 满足 : 

Á] L. 
A e| 


8 - Af 
1 1 
^-[ wi f= 

和 矩阵 4 的 条 件数 是 402.0075， 比 1 要 大 得 多 。 这 个 系统 的 解 为 f| =1, 户 =0。 现 在 ， 假 设 观测 
图 像 8 被 噪声 污染 ，8=[1 1.01". WRA =0, =1。 观 测 数据 的 极 小 变化 却 使 得 结果 发 生 
了 巨大 的 变化 。 

我 们 可 以 采用 很 多 种 方式 来 着 手 解决 这 类 病态 的 复原 问题 。 这 些 方 法 源 自 共同 的 体系 : 正 
则 化 理论 (regularization theory )。 一 般 而 言 ， 任何 正则 化 方法 都 试图 去 分 析 一 个 与 原始 病态 
问题 具有 相近 解 的 相关 的 可 解 问题 [6.57]。 

最 容易 想到 的 方法 就 是 估计 出 一 个 使 均 方 误差 的 期 望 最 小 的 图 像 。 即 找到 -个 未 知 图 像 F 
使 得 如 下 表达 式 的 值 最 小 : 


| (6-4) 
] 


E= Ng -(f OMY (6-5) 


这 里 对 图 像 中 的 所 有 像素 求 和 ， 且 应 用 一 个 与 模糊 h 相 应 的 核算 子 来 表示 畸变 。 由 于 这 个 
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问题 仍然 是 病态 条 件 的 ， 因 此 简单 地 最 小 化 E 并 不 可 行 。 如 果 对 噪声 作 一 些 假设 ， 可 能 会 令 问 
题 有 一 点 儿 改 善 。 如 果 畸 变 是 线性 移 不 变 系统 ， 且 噪声 是 静态 的 ， 则 维 恩 纳 滤波 器 (Wiener 
filter) 可 以 给 出 这 一 判 据 下 的 最 优 解 ( 见 [6.28] 中 的 详细 论述 )。 


6.3 最 大 后 验方 法 
本 节 将 介绍 一 些 数学 知识 ， 以 便 进行 更 深入 的 讨论 。 
6.8.1. 贝 叶 斯 准则 


贝 叶 斯 (Bayes) 准则 同 三 个 概率 密度 函数 有 关系 : 先 验 概率 密度 pf )、 条 件 概率 密度 
P(g8if)、 后 验 条 件 概率 密度 pCf la). 

定义 p(f ) 为 某 个 特定 图 像 出 现 的 先 验 概 率 密度 。( 如 果 将 亮度 值 看 作 是 连续 的 ， 则 需要 采 
用 概率 密度 ， 而 不 是 概率 。 无 论 采用 哪 一 种 用 法 都 对 下 面 的 推导 结果 没有 影响 。) 即 ， 在 任何 
测量 发 生 之 前 ， 图 像 /出 现 的 概率 。 举 一 个 有 关 离散 的 先 验 概率 的 例子 。 假 设 有 一 个 工厂 生产 
法 兰 盘 和 垫圈 ， 所 生产 的 法 兰 盘 个 数 是 垫圈 的 9 倍 。 法 兰 盘 和 垫圈 落 到 传送 带 上 的 时 间 是 随机 
的 。 但 由 于 我 们 具备 先 验 的 知识 ， 即 车 间 生 产 的 靶 兰 盘 数 是 垫圈 个 数 的 9 倍 ， 因 此 我 们 知道 如 
果 在 某 个 任意 时 刻 察看 传送 带 ， 看 到 波兰 盘 的 可 能 性 总 是 比 看 到 垫 围 的 可 能 性 要 大 得 多 。 因 
此 ， 摄 像 头 看 到 法 兰 盘 的 先 验 概 率 为 0.9， 而 看 到 垫圈 的 先 验 概率 为 0.1。 

定义 p(8 凡 是 图 像 f 经 过 某 种 污染 而 得 到 观测 图 像 8 的 条 件 概率 密度 。 概 率 密度 函数 可 以 用 
儿 种 可 能 的 方式 描述 。 一 种 是 简单 地 列 出 变量 的 每 个 可 能 值 发 生 的 次 数 。 这 时 ， 所 列 的 表 的 
长 度 表示 发 生 的 次 数 。 这 样 的 列表 被 称 作 是 变量 的 直方 图 (histogram)。 直 方 图 经 归 一 化 后 ， 
就 可 以 非常 有 效 地 表达 概率 密度 函数 。 不 幸 的 是 ， 对 图 像 而 言 ， 很 难 将 其 概率 密度 函数 用 一 
个 直方 图 来 表达 。 一 个 概率 密度 函数 也 可 以 采用 某 种 解析 函数 (例如 ， 高 斯 函数 )， 以 参数 化 的 
方式 来 描述 。 

定义 PU 8) 为 观测 图 像 8 果 真是 图 像 /退化 后 所 得 图 像 的 后 验 条 件 概率 (密度 )。pUr lg) 正 是 
我 们 要 计算 的 值 ， 它 可 以 作为 决策 准则 ， 或 者 更 准确 地 说 ， 作 为 判别 函数 。 接 下 来 将 解释 我 
们 的 决策 准则 。 

已 知 从 某 个 未 知 图 像 所 得 到 的 观测 图 像 8， 对 每 一 个 可 能 的 f; 值 都 计算 pC 1g)。 那 么 ， 如 
Af, 对 所 有 的 i j， 都 满足 pCi1g) 大 于 p01g)， 则 判定 fi; 就 是 所 求 的 未 知 图 像 。 当 我 们 基于 
pf, 1g) 的 结果 做 出 分 类 决策 ， 则 采用 的 正 是 最 大 后 验 图 像 处 理 算法 。 

通过 贝 叶 斯 准则 将 所 定义 的 三 个 概率 函数 联系 起 来 ， 得 : 


pig)" PE AD (6-6) 
某 数 =p(8) (6-7) 


A (6-6) 中 用 “ 某 数 ”代表 这 个 条 件 概 率 密度 的 分 母 。 用 “ 某 数 ”一 词 是 为 了 引起 大 家 
对 这 样 一 个 事实 的 注意 : 这 个 数 代表 了 8 发 生 的 概率 ， 与 未 退化 的 原始 图 像 无 关 。 由 于 这 个 数 
与 / 无 关 ， 且 对 所 有 可 能 的 /都 一 样 ， 因 此 与 判别 最 有 可 能 属于 哪 一 类 无 关 。 实 际 上 ， 它 是 一 
个 归 一 化 常数 ， 它 保证 了 p(f lg) 具 备 一 个 概率 值 必 需 的 特性 ， 即 p(f1g) 值 介 于 0 和 1 之 间 ， 且 对 
所 有 可 能 图 像 ， 其 总 和 为 1( 即 ， 观 测 图 像 至 少 应 属于 这 里 所 考虑 的 类 之 一 )。 

已 知 观 测 图 像 8, 期 望 找到 未 知 的 原始 图 像 ， 使 得 后 验 概率 密度 p(fls) 最 大 。 把 整个 图 像 的 
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概率 与 每 个 像素 的 概率 联系 起 来 。 采 用 贝 叶 斯 准则 ， 可 得 以 下 比例 关系 : 
pC Me) « plgi | FPA) (6-8) 


其 中 i 是 像素 的 索引 ，f =[f,…, Al 
为 了 便于 讨论 ， 可 以 忽略 这 个 比例 式 中 的 归 一 化 常数 ， 而 最 大 化 式 (6-8) 中 的 右 式 。 
现在 ,假设 除了 噪声 之 外 ， 图 像 无 其 他 畸变 ， 并 假设 相 邻 像素 上 的 噪声 具有 统计 上 的 独 
立 性 ， 则 可 写 出 : | 
pl f=] [PEIA (6-9) 


由 于 观测 图 像 8; 与 未 知 的 原始 图 像 像 素 fi 之 间 的 唯一 差异 即 是 噪声 ， 因 此 如 果 假 定 一 个 高 
斯 噪声 模型 ， 可 以 用 噪声 密度 来 替代 每 个 像素 的 条 件 密度 ， 从 而 得 : 


1 n. 
rei) - T- (6-10) 
将 乘积 运算 移入 指数 运算 中 ， 可 得 [6.8，6.27，6.37，6.38，6.80]: 


SG -g) 


2 


N 


peip- (Es) exp 


许多 研究 者 都 认为 ,一 幅 图 像 可 以 用 一 个 适当 的 二 或 三 维 的 马尔 科 夫 场 来 表达 [6.5，6.33， 
6.47，6.56]， 则 一 个 已 知 像素 值 发 生 的 先 验 概率 可 用 Gibbs 分 布 来 表示 [6.6，6.27，6.45] 。 


PL 


D" (6-11) 











pf.) x exp (6-12) 








上 式 中 求 和 运算 是 在 像素 ;的 邻 域 X; 上 计算 的 。 回 顾 一 下 第 4 章 ， 一 个 像素 集合 4 关于 像素 
集合 3 的 流域 (aura) 是 8B 中 所 有 与 4 中 点 相 邻 像素 的 集合 ， 其 中 对 “ 相 邻 ”的 概念 ， 由 与 特定 
问题 相关 的 定义 决定 。 这 里 的 概念 是 类 似 的 ， 但 只 \ 是 考虑 了 单个 像素 的 邻 域 而 不 是 一 个 集 
合 的 邻 域 。 正 如 流域 的 定义 ， 邻 域 的 定义 也 可 以 是 与 特定 问题 相关 的 ， 在 这 个 意义 上 说 图 像 
中 两 个 像素 是 相 邻 的 ， 并 不 意味 着 二 者 必需 是 相 邻 的 (adjacent) 或 者 甚至 是 “ 紧 贴 的 "。 但 
事实 上 ， 在 所 有 实际 应 用 中 ， 一 个 特定 像素 的 邻 域 指 的 就 是 相 邻 的 那些 像素 。7 是 一 个 可 调整 
的 宽度 参数 ， 而 Y 是 势 函数 (potential function )， 它 通常 是 关于 邻 域内 像素 的 函数 。 

再 次 用 一 个 乘积 来 描述 整个 图 像 的 先 验 概率 : 

p - | [en (6-13) 


将 式 (6-11) 和 (6-12) 代入 式 (6-8) 中 ， 并 消除 常数 项 9， 取 自然 对 数 ， 改 变 正 负 号 ， 
从 而 使 最 大 化 概率 问题 转变 成 最 小 化 一 个 目标 函数 的 问题 。 


ao-|[》 a. re (6-14) 


O ”这 些 项 并 不 影响 最 小 值 点 的 位 置 。 式 (6-14) 中 保留 了 o， 是 为 了 用 权重 表示 噪声 项 和 人 先 验 项 的 相对 重要 性 。 
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可 以 称 式 (6-14) 中 的 第 一 项 为 “噪声 项 ”[6.27] ， 而 称 第 二 项 为 “ 先 验 项 ”， 可 给 出 以 
下 形式 : . 
H(f.g) = H, (f8) + H,(f) (6-15) 


We RE” ki, AREE hih, LERE RRE I RANE RAR. 

可 以 选择 不 同 的 先 验 (正则 化 ) 项 来 突出 期 望 图 像 具 备 的 某 种 性 质 ， 例 如 ， 亮 度 值 限定 
在 给 定 的 若干 值 [6.70]; 或 者 在 边缘 之 外 的 区 域 ， 亮 度 平 稳 变化 [6.9，6.16]; 或 者 最 常见 的 ， 
亮度 在 局 部 区 域内 是 常量 而 在 边界 处 不 连续 [6.16，6.38]。 


6.3.2 题 外 话 : 逆 问 题 中 的 问题 


目前 为 止 ， 我 们 一 直 在 描述 一 个 逆 问 题 。 即 ， 一 个 畸变 过 程 已 知 (目前 为 止 仅 包括 了 噪 
声 ， 但 也 可 以 包括 模糊 )， 结 果 图 像 也 已 知 ， 它 是 对 某 个 未 知 图 像 进行 畸变 运算 后 得 到 的 。 此 
时 对 未 知 图 像 进行 估计 的 问题 就 是 逆 问 题 。 这 类 问题 的 解决 方法 通常 是 选取 并 最 小 化 一 个 函 
Be (如 式 (6-14))， 这 个 函数 是 两 项 之 和 ， 分 别 取 决 于 观测 数据 与 未 知 图 像 。 正 如 本 书 所 应 
用 的 ， 图 像 可 以 用 像素 点 的 集合 来 表示 ， 而 这 些 像素 点 的 值 是 需要 通过 求解 获得 的 ; 图 像 也 
可 以 用 一 个 函数 表示 〈 同 [6.82] 比 较 )。 如 果 / 是 一 个 函数 ， 至 少 在 概念 上 是 一 个 函数 ， 则 /在 采 
样 点 之 间 亦 可 赋值 。 这 种 情况 下 ， 可 以 把 求解 /的 过 程 看 作 是 桂 值 (interpolation). 


6.3.3 用 于 边缘 保留 型 平滑 的 目标 函数 


在 6.3.1 节 ， 我 们 简略 地 讨论 了 先 验 项 ， 而 选择 什么 样 的 先 验 项 取决 于 我 们 期 望 未 知 图 像 
具有 什么 样 的 性 质 。 最 常用 的 是 ， 图 像 的 亮度 在 局 部 区 域内 是 常量 而 在 边界 不 连续 [6.16， 
6.38]。 为 了 最 小 化 公式 (6-14) 描述 的 目标 函数 ， 用 一 个 惩罚 函数 表示 势 函 数 V。 

令 A 代 表 对 像素 周围 区 域内 亮度 变化 的 某 种 数值 测量 。 我 们 要 做 的 是 构造 一 个 惩罚 函数 ， 
它 遵循 所 谓 的 Besag 建 议 [6.16，6.38]“ 人 允许 图 像 亮 度 平稳 地 变化 ”"。Besag 建 议 ，V, 应 该 随 着 
A 的 绝对 值 “ 严 格 递增 "， 且 如 果 允 许 “偶然 的 突变 ”，V 应 “迅速 达到 一 个 最 大 值 "。 下 面 来 
探讨 一 下 他 为 何 提出 了 这 样 的 建议 。 
”采用 二 次 形 vy -bA (其 中 b>0) 是 非常 有 吸引 力 的 ， 因 为 它 简 单 。 它 以 非 线性 方式 来 惩 
罚 唤 声 。 也 就 是 说 ，A 是 对 像素 ;处 梯度 之 强 en 
度 的 某 种 度量 ， 所 以 梯度 值 越 大 ，V 值 越 大 。 
最 小 化 过 程 选择 的 解 必 然 是 V, 值 很 小 的 图 
像 。 因 此 ， 最 有 可 能 找到 的 是 不 发 生 突变 的 
图 像 ; 而 没有 突变 就 意味 着 没有 尖锐 的 边 
缘 。 这 就 意味 着 存在 许多 应 用 中 都 无 法 接受 
的 模糊 边缘 。 它 仅 适 用 于 “平稳 变化 的 真实 
景象 ”[6.6]。 保 持 尖锐 边缘 的 关键 很 简单 : 
ETES a 亮度 变化 一 亮度 变化 越 大 ， 亮度 变化 也 可 能 是 边缘 引起 的 , MEREN (GN, 
EMEN — BEREA, TER EN 边缘 会 模糊 )。 因 此 令 惩罚 函数 有 一 个 上 限 
(这 样 边 缘 上 就 没有 附加 的 惩罚 ) ， 如 图 6-1 
所 示 。 问 题 在 于 ( 见 6A.1 节 )， 这 个 函数 是 不 可 微 的 ， 因 此 不 能 采用 梯度 下 降 方法 。 

相反 ， 如 果 选 择 的 是 倒置 的 高 斯 函数 (inverted Gaussian), MÆ: 


亮度 变化 
图 6-1 噪声 越 大 ， 生 罚 应 越 强 。 假 设 局 部 亮度 变化 是 由 噪 
声 引起 的 ， 则 亮度 变化 越 大 惩罚 越 大 。 但 是 ， 局 部 
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nO - A a) (6-16) 

X (6-16) 中 的 常量 是 无 关 紧 要 的 。 写 上 它们 仅仅 是 为 了 使 之 看 起 来 更 像 一 个 高 斯 函数 。 
十 一 个 软 阐 值 ， 它 表达 的 是 关于 表面 粗糙 度 的 先 验 知识 。A 用 这 种 形式 表示 使 得 这 个 知识 表 
达 得 更 清楚 。 我 们 希望 随 着 算法 的 推进 ， 空 间 导 数 A; 变 得 儿 乎 在 处 处 都 很 小 。 关 于 这 一 概念 ， 
下 一 节 将 进行 更 加 详细 的 介绍 。 

联 立 式 (6-15) 与 (6-16)， 可 以 得 到 一 个 目标 函数 ， 如 果 最 小 化 这 个 目标 函数 ， 则 可 获 
得 一 个 与 给 定数 据 (在 均 方差 意义 上 ) 相像 的 复原 图 像 ， 同 时 图 像 的 每 个 区 域内 亮度 均匀 , 
区 域 之 间 由 陡峭 边缘 隔离 。 可 以 采用 MFA (均值 场 退 火 ) 方法 来 最 小 化 这 个 目标 函数 。 


6.4 均值 场 退 火 


MFA 是 对 复杂 函数 求 最 小 值 的 一 种 技术 ， 这 类 复杂 函数 一 般 具 有 多 个 最 小 值 。 统 计 力 学 
中 ， 均 值 场 近似 法 可 对 一 个 粒子 集合 的 能 量 状态 进行 连续 表达 。 同 时 ，MFA 又 近似 于 一 种 被 
称 作 “模拟 退火 ”(SA) 的 随机 算法 。 已 证 实 SA 即 使 对 非 凸 问题 [6.27]， 亦 可 在 概率 上 收敛 至 
金 局 最 优点 。 由 于 SA 收敛 需要 的 时 间 很 长 ， 令 人 无 法 接受 ， 因 而 引出 了 许多 加 速 技术 [6.43]。 
MFA 就 是 其 中 的 一 种 。 

自 1989 年 引入 MFA 技 术 后 [6.8，6.11]， 此 方法 在 很 多 领域 都 得 到 了 应 用 ， 包 括 局 部 均 勺 
(locally homogeneous) 图 像 [6.37，6.38] 和 局 部 平滑 图 像 [6.8，6.9] 的 复原 、 图 像 分 割 [6.69， 
6.70]、 运 动 分 析 [6.1] 以 及 传感器 融合 [6.7] 等 等 。MFA 方 法 结合 了 模拟 退火 [6.48]， 以 及 统计 力 
学 中 均值 场 近似 [6.17] 这 两 个 概念 。MFA 的 早期 工作 沿用 了 模拟 退火 的 思路 ， 并 和 统计 力学 相 
类 比 来 进行 验证 。 然 而 ， 随 后 [6.13] 证 实 了 这 样 的 类 比 并 不 是 必需 的 一 尽 管 它 富有 洞察 力 且 
完全 正确 ， 事 实 上 MFA 完 全 可 以 从 信息 论 的 角度 推导 出 来 。 

“MFA” 这 个 词 的 用 法 可 能 会 令 人 困惑 ， 因 为 这 个 缩写 最 初 是 指 推 导 一 种 算法 的 技术 。 但 
是 这 个 词 已 逐渐 演变 成 代表 一 类 图 像 复原 算法 。 这 些 算法 都 是 将 图 像 复 原 问题 看 作 一 个 最 小 
化 问题 ， 并 采用 一 个 特定 的 方法 〈 即 均值 场 近似 方 法 ) 来 求解 这 个 最 小 化 。 所 得 到 的 求解 方 
法 结合 了 梯度 下 降 法 和 “退火 ”方法 。 在 整个 算法 过 程 中 ， 被 称 作 “温度 ”的 控制 参数 会 呈 
现 一 个 单调 性 的 变化 过 程 。 

另 一 个 用 于 去 除 图 像 噪声 的 常用 方法 ， 称 为 “逐渐 非 止 ”( graduated non-convexity, 
GNC) [6.16]， 它 具有 许多 同 MFA 相 类 似 的 地 方 ，GNC 也 采用 一 个 下 降 方 法 但 少 了 一 个 控制 
参数 。 它 们 之 间 非 党 相像， 事实 上 GNC 可 以 从 MFA 推 导出 来 [6.12]。 

许多 与 MFA 相 关 的 工作 都 采用 了 MFA 方 法 来 推导 类 似 的 复原 算法 。 不 过 ，MFA 也 可 以 看 
作 是 一 种 图 像 特 征 抽 取 方 法 ， 并 与 另 一 种 被 称 为 “图 像 扩 散 (image diffusion)” 的 松弛 方法 
等 价 。 

对 MFA 的 形式 化 推导 感 兴趣 的 读者 可 以 参考 上 文中 提 到 的 文献 。 这 里 ， 我 们 对 同样 的 概 
念 ， 给 出 一 种 在 教学 上 更 具 吸 引力 的 解释 ， 即 指出 MFA 是 延 托 方 法 (continuation method) 
[6.2] 的 一 种 特殊 形式 。 

延 拓 方法 是 一 种 实现 同 伦 (homotopy) 的 算法 ， 同 伦 即 从 一 个 ( 超 ) 曲面 到 另 一 个 ( 超 ) 
曲面 的 连续 变形 过 程 。 在 式 (6-14) 所 描述 的 问题 中 ， 采 用 MFA 将 一 个 号 NW- 曲面 扭曲 为 一 个 
(通常 ) 具 有 多 个 局 部 最 小 值 的 曲面 。 为 了 便于 解释 ， 考 虑 一 下 式 (6-15) 的 最 简单 的 一 种 可 能 








88 KOR 


情况 ， 它 尽管 简单 但 仍 可 以 表 未 像素 之 间 的 相互 作用 : 
HG. f) = (i - 8 +0 -e pena - (i= fo) ME (6-17) 


这 样 得 到 了 一 幅 〈 并 不 十 分 有 趣 的 ) 仅 由 两 个 像素 点 用 和 所 构成 的 图 像 。 这 两 个 像素 经 噪 
声 污染 后 ， 可 以 得 到 观测 量 g, 和 g,。 这 里 选择 的 先 验 项 ， 会 倾向 于 满足 # = 的 解 。 将 MFA 方 法 
应 用 到 式 (6-17) 所 示 函 数 中 ， 其 主要 结果 是 用 t+7 来 替换 tr， 基 中 7T 是 一 个 初始 值 “ 较 大 的 ” 
的 参数 【〔 在 文献 中 被 称 作 “ 温 度 ” )，7 值 会 逐步 碱 小 到 零 。 对 式 (6-17) 完成 这 些 替换 后 ， 可 
以 得 到 一 个 新 的 目标 函数 : 








fry/r_ so 2v. 1 Qo ey 
Hr(fi,f)=(f 7g) +(f -8,) rel 73 (6-18) 


将 MFA 替 换 后 的 结果 记 为 Br (也 为 了 把 它 与 7 之 间 的 相关 性 显示 得 更 清楚 )。 式 (6-18) 
中 的 应 对 向 量 /的 两 个 元 素 求 导 ， 可 得 : 








2 - 8) e| - i A (3 2 
T+T 








à _ Ge TY JÀ (c4 TY (6-19) 
ALAA) = 2 
of 1 Gi - A M 205 - 5) 
20; - 8) ene - (r« TY J (r4 TY ) 
对 MFA 方 法 的 描述 如 下 : 
1) 令 T=T initia (一 个 与 问题 相关 的 参数 )。 
2) 使 用 式 (6-19)， 执 行 梯 度 下 降 或 其 他 的 某 种 最 小 化 技术 ， 找 到 使 得 HH; 最 小 的 f。 
3) WvhT. 
4) 如 果 T>T uu 则 跳 至 2)。 
在 这 里 ， 可 应 用 的 最 简单 的 梯度 下 降 方案 是 迭代 计算 : 
f kel Í 
H Al -aŠ HEE) (6-20) 
其 中 o 是 某 个 小 的 标量 。 为 了 了 解 整个 过 程 是 如 何 工作 的 ， 首 先 考虑 7 值 很 大 的 情况 : 
min, Hi(fi,f)= min (C - Y * (5 -8)), 24 (T o) (6-21) 


这 是 个 凸 函 数 (AMAT), FETE <e, 时 最 小 。 现 在 ， fee Rai nike 
然后 令 7 值 稍微 小 一 些 ， 重 复 下 降 步 又 ， 找 到 一 个 新 解 ， 然 后 再 一 次 迭代 ， 令 7 越 来 越 小 ， 
到 7 相 比 于 z 可 忽略 。 
即使 简单 化 处 理 了 这 个 问题 ， 使 图 像 仅 包含 两 个 像素 ， 式 (6-18) 所 描述 的 关于 f.、f 的 
二 维 空间 ， 仍 然 难以 想像 。 为 了 捕捉 到 同 伦 问 题 的 本 质 ， 把 问题 进一步 简化 至 一 维 的 情况 。 
在 图 6-2 中 ， 举 例 说 明了 这 样 一 个 一 维 函 数 : 
(f -iy 
q-9- nF deny] 
其 中 kl 是 标量 。 当 7 值 较 大 时 (T+t=10)， 有 曲线 是 完全 屿 的 ， 随 着 7 逐步 减 小 ， 曲 线 逐步 显示 出 
其 真实 的 形状 。 在 每 一 次 迭代 中 ， 都 要 跟踪 最 小 值 ， 并 用 箭头 指示 ， 箭 头 终止 于 全 局 最 小 值 。 
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图 6-2 一 个 国 数 的 连续 变形 过 程 ， 用 于 寻找 非 凸 函数 的 全 局 最 小 值 ， 其 初始 函数 是 凸 函数 


6.4.1 选择 先 验 项 
回顾 一 下 MFA 能 量 函 数 中 各 项 的 含义 。 首 先 ， 考 虑 噪声 项 ， 并 写 出 噪声 项 的 通用 表达 式 : 
> ((D(f)), - 8,)° (6-22) 


其 中 (DC )), 表示 图 像 在 像素 i 邻 域内 发 生 的 某 种 畸变 。 所 要 寻找 的 图 像 /， 要 使 这 一 项 最 
小 ， 则 找到 的 结果 图 像 f 在 畸变 后 与 观测 图 像 & (在 误差 平方 和 的 意义 上 ) 最 接近 。 现 在 ,来 
看 看 先 验 项 。 

将 先 验 项 写成 更 通用 的 表达 式 : 


poteet) em 


其 中 (RC )); 这 一 项 表示 (RINT) BE PERENE, MARR (6-18) 中 的 t+T。 
什么 样 的 图 像 能 够 最 小 化 这 一 项 ?让 我 们 看 看 这 种 最 小 化 又 意味 着 什么 。 

首先 ， 观 察 先 验 项 最 前 面 的 负 号 。 有 了 这 个 负 号 ， 最 小 化 这 个 函数 ， 就 是 找到 使 得 指数 
最 大 的 图 像 。 那 么 什么 样 的 图 像 会 使 指数 取 最 大 值 ? 现在 来 看 看 指数 的 自 变量 。 看 到 了 负 号 ， 
还 看 到 两 个 平方 项 ， 因 此 它们 总 是 正 的 。 这 样 ， 指 数 的 自 变量 始终 是 负 的 。 那 么 ， 什 么 样 的 
负 自 变量 会 使 指数 最 大 ? FREF (实际 上 是 负 零 )。 因 此 ， 为 了 使 指数 取 值 最 大 ， 应 选择 使 
得 RO ) 为 零 的 图 像 /。 

从 这 里 能 得 到 什么 样 的 结论 ?对 任意 的 函数 RG )， 使 得 RC ) 为 零 的 f 也 就 是 先 验 项 所 寻找 
的 f/。 这 种 分 析 给 我 们 提供 了 许多 的 设计 自由 度 。 我 们 可 以 根据 所 期 望 的 解 的 类 型 ， 选 择 函数 
RO 。 现 在 来 看 看 一 些 范例 。 


范例 
分 段 常量 图 像 
考虑 如 下 先 验 项 : 
p [EY EY - 
eo «(2 (6-24) 


为 了 使 这 一 项 为 零 ， 两 个 偏 微分 均 需 为 零 。 仅 有 一 类 曲面 满足 这 一 条 件 ， 它 们 在 任 一- 方 
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向 上 都 不 发 生变 化 一 一 也 就 是 平坦 的 ， 但 并 非 处 处 平坦 。 为 何其 解 是 分 段 常量 ， 而 不 是 常 
E? 要 知道 需要 求解 最 小 值 的 函数 是 先 验 项 
和 噪声 项 的 和 。 先 验 项 找到 的 是 常量 解 ， 而 
噪声 项 寻找 的 却 是 忠实 于 观测 量 的 解 。 因 此 ， 
对 这 一 问题 求 得 的 最 优 解 是 在 每 一 分 段 上 都 
是 平坦 的 ,图 6-3 给 出 了 一 维 情况 下 的 示意 图 。 
ARRONE 经 历 陡峭 边缘 点 时 取 非 零 值 。 
为 了 更 清楚 地 看 到 会 导出 什么 结果 ， 考 虑 将 
问题 扩展 为 连续 函数 。 如 果 x 是 连续 的 ， 则 式 
(6-23) 中 的 求 和 变 为 求 积 分 。 积 分 的 自 变量 
仅 在 一 些 很 少 的 有 限 的 点 不 是 零 (被 称 作 一 
个 零 测 集 )， 它 们 相 比 于 积分 的 其 余部 分 来 说 
是 微不足道 的 。 

范例 

分 段 平面 图 像 

现在 来 看 看 另 一 个 例子 。 考 虑 : 


oy» [22] EE 
mov (S5) (S5) * 


图 63 用 分 段 常量 解 对 一 个 曲面 的 拟 合 情 况 。 导 数 几 
乎 处 处 为 零 ， 导 数 非 零 的 点 仅 存在 于 阶 跃 处 





ary 
4 动 (6-25) 
这 代表 什么 呢 ? 什么 样 的 函数 ， 其 二 阶 导数 均 为 零 ? SRE: 一 个 平面 。 因 而 ， 如 果 R(p 采 用 
这 样 的 表达 式 ， 就 会 得 到 一 幅 平 面 图 像 ， 同 时 为 了 保留 对 数据 的 保 真 度 ， 可 进一步 得 到 一 幅 
分 段 平面 图 像 。 另 一 个 可 替代 算 子 是 拉 普 拉 斯 算 子 ， 它 同样 也 是 基于 二 阶 导数 的 : 

su f 

ax? oy? 
以 上 两 个 公式 我 们 在 第 5 章 中 都 提 到 过 。 

你 也 许 会 问 你 的 指导 老师 ,“ 将 一 个 亮度 图 像 分 割 为 多 个 线性 〈 即 上 文中 的 平面 ) 的 面 片 
等 同 于 假设 实际 曲面 是 个 平面 吗 ? ”可 能 你 会 得 到 这 样 的 答案 : “是 的 ， 如 果 不 考虑 照明 、 反 
射 系数 ， 以 及 反射 率 的 变化 *。 你 会 接着 说 ,“ 但 真实 的 曲面 并 非 都 是 平面 .” 事 实 上 答案 是 两 
方面 的 : 首先 ， 把 所 有 的 曲面 都 看 作 是 平面 而 得 到 的 观测 ， 是 没有 意义 的 且 无 用 的 ， 你 只 需 
考虑 一 个 足够 小 的 区 域 即 可 。 更 准确 地 说 ， 将 图 像 分 割 为 平面 片 是 否 有 效 取决 于 具体 应 用 。 
对 [6.14，6.74] 的 例子 ， 可 以 通过 分 段 常量 分 割 方法 来 消除 噪声 并 把 每 个 面 片 看 作 是 平面 ， 从 
而 获得 改进 的 光 流 估计 16.41] 或 者 双 目 估计 [6.72]。 有 关 对 图 像 进行 平面 近似 的 一 些 基础 理论 
可 参考 [6.62]。 

有 趣 的 是 ，Yi 和 Chelberg [6.83] 的 观测 报告 认为 计算 这 样 的 二 阶 先 验 项 比 起 一 阶 先 验 项 ， 
需要 多 得 多 的 计算 量 ， 而 且 可 能 会 使 一 阶 先 验 项 总 是 大 致 不 变 (在 迭代 中 )。 但 是 ， 我 们 在 试 
验 中 并 设 有 发 现 二 阶 先 验 会 带 来 如 此 严重 的 计算 亏损 ， 相 反 ， 它 们 为 重 构 过 程 提 供 了 更 多 的 
灵活 性 。 

对 这 样 一 个 解 ， 我 们 举 一 个 一 维 的 例子 ， 见 图 6-4。 为 一 个 图 像 建 立 分 段 平面 模型 的 思想 ， 
近年 来 从 Elder 及 其 同事 的 工作 中 [6.22，6.23，6.24] 得 到 了 更 多 的 支持 ， 他 们 提出 “一 幅 图 像 的 
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边缘 表示 是 可 逆 的 ， 逆 运算 得 到 的 图 像 能 较 好 的 近似 原 图 像 ”。 他 们 通过 假设 一 幅 图 像 ， 除 了 边 
缘 之 外 的 点 均 满足 拉 普 拉 斯 方程 Vf(x,y)=0 ， 
从 而 得 到 了 这 个 著名 的 论断 。 
综 上 所 述 ， 你 可 以 选择 你 所 期 望 的 任意 
国 数 作为 指数 的 自 变 量 ， 从 而 能 够 通过 设置 
自 变量 为 零 而 得 到 期 望 的 图 像 。 关 于 先 验 模 
型 的 一 些 更 常规 的 性 质 ，Li[6.51] 中 作 了 陈 
述 ， 先 验 项 作为 一 个 局 部 的 图 像 梯 度 A 的 函 
数 ， 应 满足 1) 一 阶 导 数 连 续 ; 2) 是 偶 函 数 
(h(A)=h(- ^); 3) 是 正 函 数 h(A)>0; 4) B 
变量 为 正 时 A>0， 其 导数 为 负 N(A)<0; 5) 收敛 至 一 图 6-4 对 图 6-3 中 数据 的 分 段 线性 ( 即 上 文中 的 分 自 
HEC, lim|Ah(A)|=C, 平面 ) 解 。 显 然 ， 分 段 线性 解 相 比分 段 常量 


解 ， 能 更 精确 地 保留 对 数据 的 保 真 度 
6.4. 退火 : 避免 局 部 最 小 值 


MFA 具 备 的 男 一 种 能 力 ， 是 可 避免 陷入 大 多 数 局 部 最 小 值 ， 这 也 使 得 它 区 别 于 其 他 MAP 
方法 。 

其 特点 完全 归功 于 式 (6-23) 中 的 参数 r。 以 “大 的 ”为 起 点 。 执 行 梯度 下 降 。 随 着 下 降 
的 迭代 式 推进 , “缓慢 ” 减 小 rz。 直 至 rz 达到 一 个 “适当 的 ”最 小 值 时 ， 终 止 算法 。 现 在 ， 让 我 
们 看 看 以 上 句子 中 所 引用 的 这 些 词 的 含义 是 什么 ? 

我 们 希望 构造 出 这 样 一 个 函数 ， 在 相 邻 像素 之 间 值 相等 的 数量 最 大 时 ， 函 数 取 值 最 小 。 
对 这 个 数量 的 计数 方法 就 是 delta 函 数 ， 它 在 两 个 像素 之 间 的 差异 为 零 时 取 值 为 1: 


14 f= | 
8 - 4l, 其 他 (6-26) 

因此 相 邻 像素 之 间 值 相等 的 次 数 可 表达 为 : 
> of, - f) (6-27) 


我 们 需要 这 样 一 个 函数 ， 当 上 式 中 的 二 重 求 和 (double summation) 取 值 最 大 时 国 数值 最 
小 ， 最 简单 的 方法 就 是 引入 一 个 负 号 : 


H, =D E50- (6-28) 


由 于 delta 函 数 不 可 导 ， 因 此 用 起 来 并 不 方便 ， 而 我 们 需要 用 梯度 下 降 来 解决 这 个 问题 。 
关于 这 个 表达 式 还 有 另 一 个 问题 : 如 果 图 像 是 连续 赋值 的 (或 甚至 采用 浮 点 表达 方法 )， 那 么 
三 等 和 的 含义 是 什么 ? 它们 之 间 应 该 有 多 接近 才能 认为 是 相等 的 ? |f -jf;1<0.01 如 何 ? 这 足够 
小 吗 ? 那么 0.001 呢 ? 可 以 了 ?那么 你 是 接受 了 ? 这 样 看 来 ， 我 们 同意 两 点 之 间 的 差异 超过 
0.001 时 会 对 误差 计算 有 贡献 。 可 是 当 两 点 闻 差 异 是 0.000 999 时 又 怎么 样 呢 ? 此 时 只 能 认为 这 
两 点 没有 任何 贡献 。 那 么 这 样 做 有 意义 吗 ? 121 
上 文中 引发 的 问题 与 一 个 度量 是 某 个 特定 值 的 概率 描述 中 遇 到 的 问题 非常 类 似 。 
例如 ， 取 值 为 整 6.000 000 (0 的 个 数 可 任意 ) 的 概率 只 能 为 零 ， 对 此 我 们 诉 诸 于 一 种 不 同 
的 方法 来 表达 似 然 概念 ， 即 采用 概率 密度 。 同 样 地 ， 在 这 个 问题 上， 我 们 遵循 同样 的 原则 。 
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不 采用 Kroneker delta 销 数 ， 而 是 用 一 个 连续 的 可 微 的 函数 来 赫 代 delta 函 数 ， 而 它们 所 表达 的 
直觉 知识 是 一 样 的 。 





H, lan exp (oe aa (6-29) 
退火 的 概念 也 适用 于 这 个 式 子 : 以 较 大 的 z 为 起 点 ， 逐 步 减 小 z 直 至 为 零 为 止 。 这 里 常量 
的 均 方 根 并 没有 特别 的 含义 ， 但 它 可 用 来 保证 这 个 函数 以 一 种 适当 的 方式 保持 其 有 界 性 。 
关于 为 何 退火 过 程 能 够 避免 局 部 最 小 值 ， 可 在 其 他 地 方 [6.8，6.11，6.12] 找 到 详细 介绍 ， 
与 模拟 退火 方法 相 比较 的 结果 可 参见 [6.27]。 
t 的 初始 值 
我 们 为 f 选择 的 初始 值 就 是 8s。 思考 一 下 当初 始 值 iwn 取 值 很 大 时 会 发 生 什么 事情 ?一 个 
很 大 的 人 会 导致 指数 的 自 变量 接近 于 零 ， 而 指数 本 身 的 值 则 接近 1。 但 这 个 值 本 身 又 被 秦 ， 因 
此 当 7 很 大 时 ， 先 验 值 与 Wt 同一 个 数量 级 ; 因此 如 果 t 是 个 大 数 ， 则 先 验 项 相对 于 噪声 项 而 言 
则 无 关 紧 要 了 。 我 们 可 以 通过 选择 一 个 较 大 的 rz， 比方 说 ， 比 分 子 的 平均 值 的 两 倍 还 要 大 ， 来 
保证 z 初 始 值 是 “大 的 ”。 
Tinia = 2 < R(f)» (6-30) 
TENEI 
MFA 方 法 以 模拟 退火 方法 的 数学 背景 为 基础 。 在 模拟 退火 中 ， 全 局 最 小 值 可 通过 如 下 的 
一 个 对 数 退 火 进度 来 逼近 : 


2. i 
T* = —— 6-31 
ln ( ) 


其 中 K 是 选 代步 数 。 在 这 个 进度 下 ，t 递 减 的 速度 极端 缓慢 ， 缓 慢 到 不 切实 际 。 相 对 地 ， 可 以 
选择 一 个 如 下 的 进度 : 
t“ - 0.997! (6-32) 
这 一 进度 在 许多 应 用 中 都 得 到 了 令 人 满意 的 效果 ， 且 z 递 减 的 速度 要 比 对 数 进 度 快 得 多 。 
6.4.3 如 何 对 一 个 含有 核算 子 的 函数 求 导 


在 以 上 讨论 中 ， 假 定 噪声 是 造成 畸变 的 唯一 来 源 ， 而 将 模糊 的 影响 排除 在 外 。 在 这 一 节 ， 

对 上 文 推导 的 结果 进行 扩展 ， 在 观测 图 像 8 的 形成 过 程 中 将 模糊 包含 进去 ， 这 样 噪 声 项 可 写 为 

X (6-33)。 这 一 节 里 更 重要 的 一 个 内 容 是 ， 如 何 对 一 个 含有 核算 子 (或 者 说 一 个 模糊 算 子 ) 
WARRI: 

2, 6p, - gy (633) 


XARA, 假设 / 是 原始 (未知 的 ) 图 像 中 的 一 个 像素 ， g, 是 观测 图 像 中 的 一 个 
像素 ， 而 /为 5 个 像素 构成 的 水 平 模糊 核 ， 如 图 

6-5 所 示 。 现 在 ， 我 们 来 详细 解释 在 梯度 下 降 le [5 J^ [4 [4 [- ] 
中 如 何 对 式 (6-33) 的 噪声 项 求 导 。 首 先 ， 写 | Rap | 加] 后 各 


出 含有 一 个 像素 (4) 的 所 有 项 ， 观 测 图 像 (84) 是 — Bes ERER, 以 及 由 五 个 像素 构成 的 一 维 核 
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TERRE) ESA SIA, 后 所 得 的 。 
E, = (f Oh) - 8) +F ON- 83) +F I), - Ba)” 
+((f 8h), - 8s) +((f G9), - 86)” 
= (fuh + fiha + fully + fshi fh 8) 
+ (ff + fah + fho + fih + fsh, - 83) (6-34) 
+ (yha + fsha + fal + fsh + fsh, -84V 
+ (Bha + faha fiho fohi + fih, 89 
+ (fil + fsha + Solty + fih + foh - gu 
to rh (fh), 表示 把 核 x 应 用 到 图 像 f 中 ，h 的 原点 (在 这 里 是 中 心 ) ERR E. H, 关于 
像素 的 导数 的 推导 过 程 如 式 (6-35)， 进 一 步 归 纳 可 得 式 (6-36): 


PET - g,)h, +2((f & h), - gh € 2(Cf Gh), - g,)h, 





(6-35) 
+2((f 8h); -gh, +2((f @h), - gj)h , 
8H, (Fh) - g)Oh,,), (6-36) 
af 


其 中 hs, = hy shy Mo hyts, B @h 一 g) 对 所 有 点 都 进行 了 计算 。 有 关 h 的 用 法 ， 图 6-6 中 给 
出 了 更 清楚 的 图 解 ， 其 中 设 n; =((f @h) -8); 。 











图 6-6 噪声 项 导数 中 的 逆序 核 


二 维 图 像 中 逆序 核 的 应 用 与 一 维 情况 相同 。 式 (6-37) 给 出 了 一 个 3 x 3 核 函 数 (h) 以 及 
TH SZ BS ift FERE, o 


hia haio hn hı ho hna 
h= ho hoo hy, hey = hy, hyo ho (6-37) 
ha Mo My hy, hao haa 














在 讨论 先 验 项 之 前 ,首先 总 结 一 下 引入 核算 子 后 求 导 的 通用 形式 。 令 RUB@h) 是 某 个 可 导 
函数 ， 函 数 关于 f 的 导数 为 : 


FR OR OHO hr (6-38) 


其 中 R= = RW) s 
在 [6.63] 中 ， 以 一 种 特别 有 趣 的 方式 使 用 了 含有 核算 子 的 函数 的 导数 ， 其 中 每 隔 一 个 像素 
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才 有 一 个 度量 。 此 时 ， 问 题 不 仅 可 以 看 作 是 图 像 估 计 ， 还 可 看 作 是 插值 问题 [6.78]。 有 关 基 于 
MFA 的 缺失 数据 估计 算法 的 详细 实验 结果 以 及 性 能 评估 可 参见 [6.63]。 
除了 噪声 项 ， 先 验 项 也 可 以 包含 核算 子 。 因 为 先 验 的 能 量 函 数 对 邻 域 运算 进行 建 模 ， 因 
此 可 以 用 一 个 核算 子 来 表达 ， 核 的 选择 依赖 于 图 像 本 身 的 性 质 。 这 里 所 举 的 例子 中 ， 选 择 了 
如 下 先 验 项 : 
H, =- exp(-(f Or) (6-39) 


oH, 
of 


实际 上 ， 先 验 导 数 9H, /ay 本 身 就 是 一 幅 图 像 ， 这 个 图 像 是 这 样 得 到 的 : 将 /应 用 到 f， 然 后 与 
指数 相 乘 (逐个 像素 ) 而 产生 另 一 幅 图 像 ， 然 后 再 把 "的 逆序 应 用 到 这 幅 图 像 中 。 


6.4.4 实际 考虑 :边缘 保留 型 的 平滑 


这 一 章 迄 今 为 止 讨论 的 所 有 的 内 容 都 可 归于 两 个 公式 。 现在， 选择 一 个 目标 函数 ， 邻 它 
保持 保 真 度 (复原 图 像 与 观测 图 像 类 似 )， 且 又 是 分 段 线 性 的 


-gy RA? 
HD- y L -EY exf -EU o» (6-41) 


其 中 (RO) 是 二 次 变 分 式 (625) 在 像素 i 上 的 值 。 当 然 ， 在 特定 应 用 中 ， 可 能 会 需要 不 同 的 先 
验 项 。 为 了 完成 梯度 下 降 ， 必 须 求 出 关于 f 的 导数 。 当 发 现 指数 的 自 变 量 的 分 子 在 x 和 y 方 向 上 
都 有 变化 时 ， 问 题 变 得 更 为 复杂 。 这 里 有 两 种 方案 : 

“由 于 R 是 三 项 之 和 ， 且 三 项 之 和 的 指数 等 于 三 项 指数 的 乘积 ， 因 此 可 利用 导数 的 乘积 规 

则 构建 一 个 更 加 复杂 的 表达 式 。 

。 也 可 以 这 样 说 ,“ 与 其 把 总 种 放 入 指数 的 自 变量 中 ， 不 如 把 指数 直接 相 加 。” 

当然 ， 它 们 并 不 是 等 价 的 表达 式 。 不 过 ， 最 小 化 它们 中 任何 一 个 都 可 以 得 到 同样 的 结果 : 
一 幅 分 段 线性 的 图 像 。 由 于 第 二 个 更 容易 实现 ， 作 为 工程 师 ， 我 们 选择 第 二 个 选项 。 大 家 都 
知道 如 何 求 导 ， 因 此 下 面 直接 给 出 算法 。 

噪声 项 的 导数 是 极 小 的 。 每 一 步 选 代 ， 只 需 通过 dnoise=(f - go 更 新 像素 的 值 。 

确定 先 验 项 的 导数 还 需要 更 多 一 点 的 工作 : 根据 式 (6-40)， 先 验 项 的 导数 是 : 

QA & A)? \\ 
FU) ow [- LEY) ea. 





- [Xf &r)exp(-(f Ar )]&,, (6-40) 


定义 三 个 核算 子 ， 用 以 估计 二 次 变 分 中 的 三 个 二 阶 偏 导 数 : 
0 0 0 0 1 0 
-2 1 A,- 工 | -2 ^ 


1 
» 
0.0 0 Vélo 1 9 


-025 0 0.25 
^,-210 0 0 


025 0 -025 
注意 这 三 个 核 是 对 称 的， 因此 有 A=A。。 
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计算 这 三 幅 图 像 ， 它 们 的 第 ;个 像素 值 分 别 为 : 
fa. (A. @ f), yy = (A,, ® f), liy = (A,, € f), 
构造 一 个 新 的 图 像 s.,， 其 元 素 为 


同 理 构 造 图 像 s,, 和 s,,。 
为 保证 梯度 下 降 ， 计 算 像素 i 上 由 先 验 项 引起 的 变化 : 
dprior, = B((A,, @S,,), + (Ay, Os,); + (A, @5,,);) 


梯度 下 降 规 则 中 指定 ， 对 f 的 每 个 元 素 都 作 更 新 ， 即 fi <=f; - ad ， 其 中 di=dnoisei+dprior。 

学 习 系 数 (learning coefficient) a 应 为 a = yox | RMS(d,), 其 中 ?是 一 个 很 小 的 无 量 纲 数 ， 
比如 0.04; RMS(d) 是 梯度 d 的 均 方 根 范 数 ; o 可 定义 为 图 像 中 的 噪声 变化 (注意 ， 在 合成 图 像 
中 这 并 不 是 一 个 好 的 定义 )。 这 里 的 a 在 每 一 步 迭 代 后 都 更 新 一 次 。 

系数 6 与 a 在 同一 量 级 ， 一 般 来 讲 令 B=o 就 比较 合适 。 

算法 实现 中 ， 令 退火 过 程 经 历 t 的 多 个 数量 级 ， 噪 声 的 消除 结果 类 似 于 图 6-10 至 6-13 所 示 
结果 。 


6.5 结论 


很 容易 看 出 ， 在 图 像 优 化 的 一 些 应 用 中 存在 着 某 种 一 臻 性。 例如， 本 书 作者 之 一 在 其 扎 
写 的 一 篇 论文 [6.7] 中 ， 利 用 这 种 一 致 性 来 实现 融合 ， 所 融合 的 是 关于 同一 物体 的 一 幅 (有 品 
声 的 ) 距离 图 像 与 一 幅 (有 噪声 的 ) 亮度 图 像 。 由 于 二 者 均 为 同一 物体 的 图 像 ， 距 离 图 像 
(取决 于 几何 学 ) 和 亮度 图 像 〈 取 决 于 反射 系数 ， 并 因此 也 取决 于 几何 学 )， 因 此 二 者 必然 是 
一 致 的 。 

在 这 一 章 中 ,普遍 应 用 了 优化 方法 ， 儿 乎 可 以 把 本 章 的 标题 改 为 “图 像 优 化 ”了 。 本 章 
通过 建立 一 个 目标 函数 一 一 一 个 关于 观测 图 像 与 (未 知 的 ) 真实 图 像 的 函数 ， 来 寻找 使 得 目 
标 函 数 最 小 的 (未知) 图像。 这 里 引入 了 两 个 词 ， 一 个 噪声 项 一 与 度量 相关 ， 和 一 个 先 验 
项 -一 仅 与 真实 图 像 相关 。 然 后 ， 求 解 使 目标 函数 达到 最 小 的 图 像 ， 从 而 找到 “真实 ”图 像 。 
有 多 种 最 小 化 技术 可 以 选择 。 在 这 一 章 ， 我 们 采用 结合 了 退火 的 梯度 下 降 法 ， 当 然 也 可 以 采 
用 其 他 更 复杂 的 和 更 快 的 技术 ， 例 如 共 斩 梯度 法 。 


6.6 术语 
各 问 异 性 的 扩散 anisotropic diffusion ( 见 6A.2) 
退火 annealing 
贝 叶 斯 准则 Bayes’ rule 
GNC 方 法 graduated nonconvexity( 见 6A.1) 
逆 问 题 inverse problem 
最 大 后 验 概率 算法 MAP algorithm 
松弛 relaxation 


复原 restoration 
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作业 6.1 


XX (6-34) 举例 说 明了 如 何 将 核 扩 展 为 一 个 和 式 (sum)， 从 而 计算 一 个 含有 核 的 表达 式 
的 偏 导数 。 采 用 这 种 方法 ,证 明 从 式 (6-39) 可 推导 出 式 (6-40)。 在 证 明 中 ， 请 使 用 一 个 一 
维 问题 ， 以 及 一 个 3 x 1 的 核 ( 记 核 的 元 素 为 -!、 加 和 hh)。 


作业 6.2 


在 图 像 angio.ifs 上 实现 式 (6-65)， 也 可 以 使 用 指导 老师 指定 的 其 他 图 像 。 请 在 各 种 不 同 
运行 时 间 和 不 同 参数 配置 条 件 下 ， 做 多 次 实验 。 


作业 6.3 


在 式 (6-25) 中 ， 采 用 了 二 次 变 分 来 表达 先 验 项 。 一 个 非常 类 似 的 先 验 项 是 拉 普 拉 斯 算 
子 。 二 者 有 何 差异 ? 是 否 存在 这 样 的 图 像 特 征 ， 它 使 得 拉 普 拉 斯 算 子 最 小 ， 而 未 能 使 二 次 变 
分 最 小 ? 反之 如 何 ? 


作业 6.4 

下 列表 达 式 中 哪 一 个 描述 的 是 一 个 拉 普 拉 斯 算 子 ? 
eser o (5) OS 7 
ex eG OF (0 
作业 6.5 


扩散 方程 的 一 种 表达 式 是 df /dt =h, OCh, & f)) +h, @(clh, @f)) ， 其 中 h 和 有 分 别 为 x 和 
》 方 向 上 的 一 阶 导 数 的 估计 值 。 这 意味 着 必须 要 使 用 四 个 核 来 计算 这 个 结果 。 不 过 ， 简 单 的 代 
数 运算 就 可 以 把 它 改 写 为 4 /di = c(h 8 f € h, 8 f) ， 这 样 只 需要 两 个 核 。 对 算法 进行 这 样 的 
简化 是 正确 的 吗 ? 如 果 不 正确 ， 请 解释 为 什么 不 正确 ， 以 及 在 什么 情况 下 这 样 做 是 正确 的 ? 


作业 6.6 
考虑 如 下 的 图 像 哈密 尔 顿 (Hamiltonian ) 
(下 -8 | yl (-5$7. 
H(f)= (x4: ) | Di Pe | FHS) 
其 中 @ 代 表 使 用 了 一 个 核算 子 ， 图 像 中 的 像素 按 字典 顺序 标记 ， 索 引 下 标 用 ;来 代表 ， 核 
3: 
-12 -1 


-2 4 -2 
-1 2 -1 
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4G, (用 代表 忆 关于 像素 上 的 偏 导数 ， 即 Cr Cf) - 9/9f,H,CO. SHG, ORRE. ER 
用 核 符号 。 


作业 6.7 


延续 作业 6.6 中 的 问题 ， 仅 需 考虑 先 验 项 。 写 出 一 个 方程 ， 来 描述 在 简单 梯度 下 降 算法 的 
一 步 选 代 中 ， 图 像 中 像素 上 上 的 亮度 变化 。 记 这 个 梯度 为 C, 0)， 请 在 答案 中 使 用 这 个 符号 。 


作业 6.8 


延续 作业 6.7 中 的 问题 ， 对 所 推导 出 的 G, (表达 式 进 行 替换 ， 从 而 扩展 这 个 微分 方程 
(假设 亮度 只 在 x 方 向 上 发 生变 化 )。 这 是 一 种 扩散 方程 吗 ? 请 讨论 。( 提 示 : 在 使 用 核 的 地 方 
用 适当 的 导数 来 替代 。) 


作业 6.9 


在 一 个 扩散 问题 中 ， 所 要 扩散 的 是 一 个 向 量 ， 而 不 是 亮度 。 对 一 个 扩散 方程 ， 用 适当 的 
向 量 来 替代 这 些 项 ， 并 写 出 新 的 微分 方程 。( 提 示 : 如 果 记 这 个 向 量 为 [a, bJ", 可 能 更 容易 进行 
EF.) 


作业 6.10 


扩散 的 运行 时 间 以 某 种 方式 与 模糊 相关 。 这 就 是 为 什么 一 些 人 将 这 类 的 扩散 称 作 “尺度 
空间 ”的 原因 。 请 讨论 这 一 词 的 用 法 。 


专题 6A 替代 算法 与 等 价 算法 


6A.1 GNC: 一 种 可 去 除 噪声 的 蔡 代 算法 


正如 前 文 所 描述 的 ，MFA 方 法 通过 最 小 化 一 个 目标 函数 从 而 找到 一 幅 具 有 尖锐 边缘 的 图 
fg. AMES (GNC) 方法 与 此 相同 ， 但 它 所 采用 的 目标 函数 ， 明 确 地 针对 边缘 的 存在 。 


HpMFA 














Vii) 





图 6-7 MFA 在 不 同 7T 值 下 的 先 验 能 量 。7 值 越 小 ， 峰 越 尖锐 


我 们 考虑 如 下 情况 ， 由 先 验 知识 指定 ， 在 除了 阶 跃 (step) 不 连续 点 之 外 的 区 域 ， 图 像 亮 
度 均 义 。Blake 和 Zisserman[6.16] 称 这 种 情况 为 “ 弱 隔 膜 ” (weak membrane), ， 而 相 类 似 的 
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MFA 范 例 被 称 作 [6.12]“ 分 段 均匀 ”。 在 目标 函数 (比较 图 6-7 和 图 6-9) 和 复原 图 像 (图 6-10 至 图 6-13) 
中 均 可 以 看 出 这 两 者 之 间 的 相似 性 。 还 有 一 些 其 他 的 表达 式 [6.12]， 它 们 提出 MFA 问 题 的 方式 
其 至 与 GNC 更 相似 ，[6.25] 中 首次 提 到 这 种 相似 性 。GNC 方 法 应 用 到 “ 弱 隔 膜 ” 中 的 最 小 化 
问题 如 下 : 


miny, Hanc (6-42) 

其 中 
Honc = H,+S+P, MAN P-aNl (6-43) 
且 符 号 Vi 可 解释 为 “图 像 在 点 目的 梯度 * ix HL. L€(0,D 表示 /在 第 ;个 像素 上 上 的 不 连续 


tE, An, ara AUR RRB ERA. 同样 地 ， 表示 第 (个 像素 的 亮度 。 [6.16] 
中 已 显示 ， 最 小 化 Howc 可 以 简化 为 如 下 只 含有 连续 变量 的 问题 : 


min H,+5, «Su (6-44) 


ÆA (6-43) 与 式 (6-44) 中 ， [vaOl 可 代表 任 一 算 子 ， 例 如 (Af / ax)’ +(af/ay) ， 这 类 算 
子 会 返回 一 个 对 图 像 的 局 部 “边缘 ”的 标量 度量 。 式 (6-44) 中 的 v 函 数 是 图 6-8 所 示 的 “ 截 顶 
抛物 线 ”(clipped parabola). 

由 于 式 (6-44) 所 定义 的 函数 通常 是 非 凸 的 ， 即 函数 可 能 具有 多 个 最 小 值 ， 因此 无 法 通 
过 梯度 下 降 等 技术 实现 最 小 化 。 而 GNC 方 法 采用 如 下 分 段 平滑 函数 来 逼近 六 





Ae (Itl< q) 
v (n24a-c'(tl-r/2. (q<ltkr) | (6-45) 
a (ti>r) ^ | 
其 中 c* 是 一 个 标量 常数 ，c= cr/p， 
2-of2 1 ga 6-46 
SATIE 47 53, ( ) 


KA (6-45) 与 (6-46) 已 给 出 了 这 个 算法 。 将 参数 p 从 1 减 至 9， 可 平稳 地 改变 v* 直 至 它 精 确 
等 于 "。 这 样 生成 的 一 个 先 验 能 量 族 ， 见 图 6-9 所 示 。 


图 6-8 GNC 算 法 的 先 验 能 量 图 6-9 对 图 6-8 中 能 量 的 平滑 近似 。p 越 小 ， 近 似 结果 
越 接近 理想 的 先 验 能 量 。 这 里 (GNC) 中 的 
等 价 于 MFA 中 的 边缘 梯度 大 小 V 


整个 过 程 的 第 一 步 是 最 小 化 一 个 凸 函数 ， 这 样 会 得 到 一 个 唯一 的 最 小 值 。 然 后 从 这 个 最 
小 值 出 发 ， 随 着 > 从 1 减 至 0， 连 续 地 跟踪 局 部 景 小 值 。 
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6A.2 传导 率 可 变 的 扩散 


VCD (variable conductance diffusion: 传导 率 可 变 的 扩散 ) 方法 [6.31，6.59， 6.62] 是 一 种 
非常 有 效 的 图 像 特征 抽取 方法 ， 它 只 允许 模糊 效应 在 边缘 之 外 的 区 域 发 生 。“ 边 缘 ” 一 词 可 以 
宽泛 地 指 任意 的 令 人 感 兴趣 的 图 像 特征 。 例 如 Whitaker[6.79] 对 图 像 的 梯度 进行 运算 ,而 不 是 对 
HREF, FEA DOME (梯度 方向 尖锐 变化 的 区 域 ) 之 外 的 区 域 进行 平滑 。 由 于 原始 图 像 中 
的 多 数 信 息 都 丢失 了 ， 因 此 这 样 的 运算 肯定 不 能 被 复原 。 不 过 ， 对 于 从 灰 度 图 像 中 抽取 出 物 
体 的 中 心 轴 而 言 ，VCD 方 法 是 一 个 非常 鲁 棒 的 方法 。 

VCD 的 运算 模拟 以 下 扩散 方程 

3. Lv eevu (6-47) 
其 中 t 是 时 间 ，V, f 代表 f 在 像素 i 上 的 空间 梯度 。 扩 散 方程 对 某 种 量 (最 常用 的 例子 是 热量 ) 
在 一 个 传导 率 (如 ， 热 传导 率 ) 为 c 的 材料 中 的 流动 现象 进行 建 模 。 

如 采 c; HM, A SRR PRK, MBH (6-47) 有 一 个 解 等 价 于 与 高 斯 函数 
作 卷 积 运算 ， 这 个 高 斯 函数 的 变量 与 c 以 及 扩散 的 运行 时 间 相 关 。 特 别 地 ， 令 f 是 一 个 关于 空 
间 和 时 间 的 函数 ， 用 一 个 特定 的 偏 微分 方程 (PDE) 来 表达 。 如 果 能 写 出 /的 如 下 表达 式 : 


fd = [Ox OF (a O)dx' (6-48) 


那么 ， 我 们 说 GO, x’) PDEA HH (Green’s function)。 在 各 向 同性 的 扩散 这 样 的 特殊 
情况 下 ， 可 以 对 其 一 维 的 形式 进行 如 下 描述 : 


定理 
高 斯 函数 是 以 下 PDE 的 格林 函数 : 
证 明 


证 明 可 以 通过 写 出 如 下 高 斯 函数 来 完成 : 
| GG ne mes [- 872 
其 中 o 可 以 证 明 是 关于 时 间 的 函数 (我 们 省 略 了 1/V2x ， 因 为 它 在 PDE 的 两 边 均 有 出 现 ， 可 
以 相互 抵消 )。 
REX, (6-48) 代入 式 (6-49) 中 ， 左 式 是 一 个 积分 关于 1 的 偏 导数 ， 其 中 o 是 关于 1 的 一 个 
函数 。 求 这 个 偏 导数 ， 使 左 式 等 于 : 


(6-50) 





Gx 1Ja0 
| at 7 ðt 
同样 地 ， 我 们 可 以 求 关 于 x 的 二 阶 偏 导数 ， 得 右 式 : 

sa "x (6-51) 


ol o* o 


联 立 式 (6-50) 与 (6-51)， 使 二 者 相等 可 得 等 式 : 














NS 


100 FOF 


8o c l (6-52) 
ot o 
其 解 为 : 
o? =2ct (6-53) 
证 明 完 毕 。 


在 使 用 VCD 方 法 的 情况 下 ,传导 率 变 为 一 个 关于 空间 坐标 的 函数 ， 此 时 用 参数 i 表示 空间 
坐标 。 特 别 要 指明 的 是 ， 它 变 成 了 图 像 局 部 亮度 本 身 的 一 个 特性 。 传 导 率 c; 被 看 作 是 空间 的 
局 部 压缩 因子 。 

为 了 只 在 边缘 之 外 进行 平滑 ， 那 么 如 果 i 是 边缘 像素 (也 就 是 说 ， 如 果 所 选择 的 图 像 特性 
具有 局 部 非 均匀 性 )， 则 令 c; 很 小 。 如 果 c; 很 小 ，( 在 类 似 的 热传导 情况 中 ) 只 有 很 少 的 热流 
动 ( 即 空间 被 拉 伸 )，( 类 似 地 ) 在 图 像 中 ， 就 几乎 没有 平滑 发 生 。 另 一 方面 ， 如 果 c; BK, 
则 在 像素 ;的 附近 会 发 生 较 大 程度 的 平滑 ( 即 空间 被 压缩 )。 那 么 ， 正 如 我 们 已 讨论 的 MFA 和 
GNC 的 形式 ，VCD 方 法 在 经 迭代 后 也 产生 一 个 几乎 分 段 均匀 的 结果 。 
6A.3 面向 边缘 的 各 向 异性 扩散 

如 我 们 在 式 (6-48) 中 看 到 的 ， 高 斯 函数 是 扩散 方程 的 格林 函数 。 即 ， 在 一 幅 图 像 上 运 
行 一 个 扩散 过 程 会 生成 与 高 斯 函数 卷 积 相 同 的 结果 ， 其 中 高 斯 函数 的 变量 取决 于 扩散 运行 时 
间 的 长 短 。 常 量 一 传导 率 扩散 方程 为 : 

f= es + fy) (6-54) 
如 果 图 像 中 有 一 条 边缘 ， 我 们 希望 在 边缘 两 侧 都 去 除 噪声 ， 但 又 不 使 边缘 模糊 。 此 时 ， 在 
与 边缘 相 切 的 方向 上 做 扩散 是 有 意义 的 。 假 定 一 幅 二 维 图 像 中 一 条 边缘 的 法 向 量 与 切 向 量 为 : 
T T 
y- Eh] ra [广大 ] 
|f +f? R +f? 
现在 考虑 ， 在 Y 和 7 方向 上 求 二 阶 偏 导数 : Suv Fllfrre 
”由 于 拉 普 拉 斯 算 子 是 旋转 不 变量 ,我 们 可 以 在 新 的 坐标 系 中 写 出 扩散 PDE ( 式 (6-54)), 
新 的 公式 为 大 = ew + frr) o 7 
推导 关于 偏 导数 之 间 的 关系 如 下 : 
fw = Fi fa t+2f fs fs + Fr fy Nf +) 
fe = (Fy fee -2fh fy + fe fy Ke +f) 

HERRAR (6-54) 中 并 减 去 法 向 流 ， 最 终 能 得 到 这 样 一 个 PDE， 它 只 在 沿 着 边缘 的 方 
向 上 进行 平滑 ， 而 对 边缘 的 垂直 方向 上 则 不 进行 平滑 : 

f= U fa 2S + Fe fy "Fe +f) (6-56) 
上 式 称 为 各 向 异性 的 扩散 。 


6A.4 对 图 像 松 弛 算 子 的 一 个 通用 描述 
6A.4.1 MFA 和 GNC 
在 这 两 种 情况 下 ， 均 有 一 个 能 量 函 数 以 递增 的 方式 惩罚 图 像 中 梯度 的 发 生 。 在 采用 GNC 





(6-55) 


w 
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的 情况 下 ， 先 验 项 保留 了 它 的 原始 形状 ， 而 “退火 ”过 程 〈 即 p 的 减 小 ) 可 以 实现 对 预定 先 验 
形状 的 连续 的 逐步 逼近 。 在 采用 MEFA 的 情况 下 ， 先 验 形状 本 身 就 会 改变 ， 但 其 会 保留 一 个 不 
变 区 域 ， 当 7 减 小 时 这 个 区 域 也 会 变 得 越 来 越 窄 。 由 此 ， 分 段 常量 的 MFA 与 GNC 的 弱 隔膜 达 
到 同样 的 结果 并 不 奇怪 。 

这 两 类 技术 的 等 价 性 将 在 下 一 节 进 行 论证 ，[6.12] 中 给 出 了 形式 化 的 证 明 ， 请 读者 参考 文 
中 的 深入 分 析 。 接 下 来 描述 的 试验 在 该 论文 中 也 有 介绍 ， 这 里 写 出 来 是 为 了 辅助 读者 理解 算 
法 的 作用 过 程 。 

试验 中 两 种 算法 复原 同样 的 图 像 ， 且 使 用 多 种 信 噪 比 。 将 MFA 和 GNC 各 自 应 用 到 同一 品 
声 图 像 中 ， 并 分 别 调整 参数 使 其 达到 最 优 的 图 像 复 原 结果 。 每 一 个 算法 都 完成 了 不 同 参 数值 
下 的 数 百 次 运行 。 我 们 发 现 对 每 一 幅 噪 声 图 像 ， 两 种 算法 都 存在 各 自 的 某 种 参数 组 合 ， 使 得 
复原 图 像 的 品质 相当 。 

图 6-10 至 图 6-13 描 绘 出 了 复原 图 像 达 到 的 品质 ， 对 比 了 原始 图 像 (图 6-10)、SNR=2 时 的 
退化 图 像 (图 6-11)、MFA 方 法 复原 图 像 (图 6-12) 以 及 GNC 复 原 图 像 (图 6-13) 


$608 


图 6-10 原始 图 像 图 6-11 退化 图 像 图 6-12 MEFA 复 原 图 像 图 6-13 GNC 复 原 图 像 


GNC 算 法 的 代码 可 在 [6.16] 中 找到 ， 其 中 梯度 采用 SOR(successive over-relaxation， 连 续 
的 过 松弛 ) 来 实现 。 我 们 发 现 噪声 严重 的 情况 下 (SNR<3)， 同 样 采用 SOR 时 ，MFA 的 运行 速 
度 约 比 GNC 的 速度 要 快 10 倍 。 而 对 清晰 一 些 的 图 像 ， 如 SNR>=4 时 ，GNC 的 运行 速度 更 快 。 
6A.4.2 ”MFA 与 VCD 一 等 价 算法 

在 完成 如 下 比较 之 前 ， 首 先 需要 详尽 地 介绍 空间 导数 的 一 个 特性 。 一 幅 图 像 的 亮度 关于 
距离 的 导数 可 写 为 : 





of lim fet Ax) - f(x) (6-57) 
Ox — A0 Ax 

然而 ， 在 一 个 采样 图 像 (比如 ， 所 有 的 数字 图 像 ) 中 ， 求 极限 的 过 程 是 没有 任何 意义 的 。 
因为 正如 Romeny 所 指出 的 [6.73]， 没有 人 能 在 比 一 个 像素 更 小 的 尺度 上 取 不 同 的 值 。 相 反 ， 
为 了 估计 一 个 点 上 的 导数 ， 必 须 对 该 点 的 某 个 邻 域 完成 运算 。 如 何 估计 导数 是 个 很 古老 的 论 
题 ， 在 这 里 我 们 不 再 更 多 的 描述 。 但 我 们 要 指出 ， 大 多 数 分 析 结 果 已 经 推出 如 下 的 论断 : 这 
一 类 估计 (也 包含 对 高 阶 导数 的 估计 )， 在 一 维 情况 下 ， 通 常 通过 一 个 核算 子 计 算 ， 而 在 n 维 
情况 下 是 通过 一 个 有 7 个 算 子 的 阵列 的 欧 几 里 德 范 数 来 计算 。. 对 这 个 求 导 过 程 ， 我 们 只 考虑 了 
x 方向 上 的 导数 。 这 里 将 用 几 个 段落 的 篇 幅 来 概括 描述 这 个 过 程 。 首 先 ， 将 先 验 项 改写 为 : 


H,(f)= E» exp 7 (feni | (6-58) 





tS (fer), fett — Rr RISUS EG. EA LEBER. PEPE AT AY SRDS 
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问题 相关 的 图 像 特性 。 这 个 通 式 已 用 于 对 分 段 常 量 [6.38] 图 像 与 分 段 线性 图 像 [6.8，6.9] 去 除 
噪声 。 

在 以 下 推导 过 程 中 ， 只 考虑 了 先 验 项 。 

为 了 实现 梯度 下 降 ， 需 要 计算 这 个 导数 ， 因 此 有 : 











oH, — b |J) [ (f&ry le | 6-59 
~ par |\ T en 27° J «| om 
其 中 rev 代表 核 r 的 镜像 图 像 。 


现在 ,假定 像素 i 上 的 亮度 变化 量 A ， 是 图 像 梯 度 的 大 小 ， 且 几乎 处 处 很 小 。 众 所 周 
知 [6.53]， 采 用 高 斯 导数 作为 一 个 核 是 针对 噪声 图 像 估 计 其 导数 的 极 好 的 方式 。 记 G, 为 一 
个 高 斯 函数 关于 x 的 导数 ， 用 (GG) = VG BRAK (6-59) 中 的 r; 并 将 1/@8VG 写 成 V/， 
可 得 结果 


, F = -K(V((Vf exp(-(Vf)"))) (6-60) 
在 上 式 中 ， 将 常量 放 在 一 起 用 x 表达 ， 并 为 了 看 得 更 清晰 ， 设 授 火 控制 参数 7 为 1。 然后 使 
AT MT RR Ay 即 对 于 一 阶 导数 核 : OBfeh- - [gji)。 关 于 7 所 产生 的 影响 将 在 下 一 节 进 
行 讨论 。， 
最 后 ， 我 们 考虑 在 梯度 下 降 算法 中 如 何 使 用 Zup. 在 梯度 下 降 的 最 简单 的 
实现 中 ,是 由 以 下 式 子 ( 同 式 (6-20) 作 比 较 ) wan. 


fi? = fk -a— (6-61) 


其 中 表示 在 第 k 步 循环 后 f 的 值 ， Niele (或 者 ， 在 更 复杂 的 算法 中 ， 是 五 的 黑 


塞 的 一 个 函数 )。 改 写 式 (6-61), 


oH _ ft - fi 

of, a 
我 们 注意 到 式 (6-62) 的 左 式 代 表 的 是 /在 第 k 步 迭代 与 第 tt+1 步 迭代 之 间 的 变化 ， 而 实际 上 它 
与 的 导数 的 形式 具有 很 强 的 类 间 之 处 。 如 果 定 义 第 k 步 迄 代 在 时 刻 : 进 行 计算 ， 而 第 k+1 步 选 代 
在 村 At 时 刻 进行 计算 ， 则 可 以 使 这 个 相似 性 显现 出 来 。( 在 相 类 似 的 上 下 文中 ，t 有 时 被 看 作 
“ 卷 积 参数 ”。) 由 于 ! 是 人 工 引入 的 参数 ， 没 有 任何 有 意义 的 物理 单位 ， 可 以 用 任 一 方便 的 比 
例 常数 来 衡量 ， 则 可 得 


(6-62) 


9H  fi(t* A) AD _ of; (6-63) 

9f, At ot : 
其 中 ， 已 将 常量 a 重新 定义 为 A4， 使 之 看 起 来 像 一 个 关于 时 间 的 导数 。 将 这 个 ( 重 ) 定义 代入 
FIX (6-60) 中 ， 并 简单 地 改变 符号 ， 又 令 两 次 选 代 之 间 的 时 间 间 及 明确 化 ， 则 MFA 先 验 项 
的 导数 最 终 可 重 写 为 : 


Sh VV exp s) (6-64) 
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其 中 Vz 代表 梯度 值 的 缩放 比例 为 7。 
写 出 扩散 公式 


a. = -K(V(cVf)) (6-65) 


其 中 ， 如 果 传导 率 c 由 指数 项 来 替代 ， 则 可 观察 到 式 (6-64) 精确 等 于 (VCD) [6.31, 6.59, 
6.62] 中 采用 的 扩散 公式 的 形式 。 常 量 kx 简单 地 将 公式 所 包含 的 所 有 常量 合并 成 一 个 量 。 

通过 式 〈6-65)， 我 们 说 明了 MFA 与 VCD 之 间 的 等 价 性 ， 其 中 MEFA 的 运算 中 没有 包含 噪声 
MA (6-11)。 这 个 等 价 性 为 关于 图 像 分 析 的 两 大 类 思维 形式 的 联合 作 了 准备 :第 一 类 (最 优 
化 ) 方法 考虑 的 是 一 幅 图 像 应 该 具有 的 特性 。 因 此 它 会 构造 一 个 优化 问题 ， 使 其 解 为 所 期 望 
的 图 像 。 也 可 将 这 种 方法 称 之 为 复原 类 。 第 二 类 (过程 ) 方法 ， 则 更 关心 如 何 确定 可 应 用 的 
适当 的 空间 分 析 法 (spatial analysis)。 自 适应 滤波 ， 扩 散 ， 模 板 匹 配 ， 等 等 ， 都 更 关心 过 程 
本 身 ， 而 并 不 关心 过 程 对 图 像 的 某 种 假定 的 “能 量 函 数 ” 做 什么 样 的 操作 。 这 一 节 的 结果 显 
示 出 这 两 类 方法 不 只 是 在 原理 上 等 价 ， 至 少 在 保留 边缘 的 图 像 平滑 问题 这 一 特殊 形式 上 ， 它 
们 是 精确 相等 的 。 

以 上 等 价 性 中 ， 对 MFA 方 法 的 讨论 仅仅 考虑 了 目标 函数 的 先 验 项 。 增 加 噪声 项 ， 可 使 一 
个 图 像 特 征 抽取 算法 转换 为 一 个 受 约束 的 复原 算法 。 

Nordström [6.59] 也 观察 到 了 扩散 技术 与 正则 化 (优化 ) 方法 之 间 的 相似 性 。 他 认为 : “各 
向 异性 的 扩散 方法 (Whitaker[6.79] 称 之 为 VCD) 并 不 打算 找到 任何 形式 的 最 优 解 .” 这 并 不 
十 分 准确 。 或 许 换 一 种 说 靶 ， 说 “这 个 技术 的 开发 者 并 没有 打算 把 它 当 作 一 个 最 小 化 技术 用 ” 
会 更 好 一 些 。 之 后 ，Nordstr5om 又 接着 说 : “可 以 将 正则 化 方法 与 各 向 异性 的 扩散 方法 统一 起 
来 ,尽管 二 者 最 初 看 起 来 非常 不 同 。” 接 着 ， 他 非常 完美 而 精确 地 定义 了 一 个 成 本 函数 ， 其 作 
用 正 是 一 个 各 向 异性 的 扩散 ， 与 这 里 描述 的 推导 方式 相 类 似 。Nordstr5om 又 认为 ， 有 必要 增加 
一 个 “稳定 成 本 ”以 “限制 图 像 函 数 可 能 估计 值 的 空间 ”。 而 当 读 者 得 知 稳定 成 本 有 如 下 形式 
时 ， 就 不 会 感到 奇怪 : 


Xo -g) (6-66) 


EX (6-11) 中 已 说 明了 它 是 关于 高 斯 噪声 对 无 模糊 成 像 系统 所 产生 影响 的 一 个 量 测 。 因 
此 ， 可 以 认为 有 偏 的 各 向 异性 的 扩散 (biased anisotropic diffusion, BAD) [6.59] 是 对 一 幅 图 
像 的 最 大 后 验 复原 。 根 据 这 种 观察 结果 ， 可 以 认为 VCD/BAD 的 研究 者 们 ， 在 具备 有 关 附 加 的 
噪声 生成 过 程 的 信息 时 ， 可 以 考虑 采用 不 同形 式 的 稳定 成 本 。 


6A.5 与 神经 元 网 络 之 间 的 关系 


Hopfield 神 经 元 网 络 与 最 优化 问题 之 间 的 关系 是 众所周知 的 。 给 定 一 个 1sing 类 型 的 目标 ， 
可 直接 找到 一 个 递归 神经 元 网 络 ， 使 其 稳定 状态 是 目标 函数 的 最 小 值 ( 见 [6.39] 和 [6.40] )。 

这 类 递归 网 络 的 最 简单 的 形式 ， 是 对 二 值 变量 进行 操作 ， 用 一 个 神经 元 代表 一 个 变量 。 
在 这 种 用 法 中 ， 一 个 “神经 元 ”就 是 一 个 乘积 之 和 (sum-of-products) 算 子 ， 可 生成 输入 量 
的 加 权 和 。 接 着 ， 对 这 个 和 再 进行 一 次 单调 非 线 性 化 处 理 ， 通 常 是 某 种 限 幅 函 数 ， 例 如 
sigmoid 函 数 。 根 据 以 上 定义 ， 可 以 将 这 些 算 子 描述 为 一 个 二 层 网 络 ， 其 表达 式 如 式 (6-59), 
每 层 都 仅 局 部 连通 ， 如 图 6-14 所 示 (也 可 见 [6.13])。 
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从 实现 的 角度 来 看 ， 局 部 连通 性 是 很 重要 的 ， 因 为 正 是 这 一 点 使 并 行 的 、 实 时 的 硬件 架 
构 变 得 可 行 。 





图 6-14 设想 用 一 个 局 部 连通 的 递归 网 络 ， 来 完成 这 里 所 描述 的 图 像 松弛 网 络 是 直截了当 的 


6A.6 结论 


图 像 的 优化 问题 与 扩散 问题 之 间 存 在 着 等 价 性 。 其 他 研究 者 也 作 了 类 似 的 观测 。 另 外 ， 
除了 Nordstrgm[6.59] 之 外 ，Geiger 和 Yuille 也 得 出 了 一 个 相似 的 结论 [6.26]， 即 能 量 函 数 要 求 明 
确 的 线 过 程 (line processes)。 由 于 事实 已 经 证 明 [6.38] 线 过 程 并 不 是 必需 的 。 因 此 现在 对 他 
们 的 结论 可 以 给 出 更 一 般 的 解释 。 对 一 个 图 像 优 化 问题 (尤其 是 复原 问题 )， 人 们 会 通过 定义 
一 个 准则 函数 ， 并 应 用 某 种 最 小 化 方案 来 搜索 一 个 全 局 (或 至 少 是 一 个 好 的 ) 最 小 值 。 因 而 ， 


“一 个 图 像 复原 问题 可 以 看 作 是 以 下 目标 的 结合 :1) 保留 原始 图 像 中 的 信息 ， 从 而 使 生成 的 结 


果 图 像 与 原始 图 像 (或 者 是 对 原始 图 像 应 用 某 个 算 子 得 到 的 结果 ) 在 某 个 方面 是 相似 的 ; 2) 
生成 的 结果 图 像 具 有 某 些 特性 ， 例 如 ， 除 边界 之 外 的 区 域 是 局 部 平滑 的 。 如 果 丢 掉 第 一 个 目 
标 ， 则 复原 问题 就 会 变 成 图 像 特征 (iconic feature) 抽取 问题 。Wu 和 Doerschuk [6.81] 针 对 
这 项 工作 进行 了 富有 吸引 力 的 扩展 。 
最 后 ， 回 顾 一 下 [6.19] 中 的 内 容 ， 其 中 演示 了 MFA 算 子 可 以 用 一 个 二 层 的 且 局 部 连通 的 递 
归 神 经 元 网 络 来 运算 。 从 这 篇 文章 出 发 ， 有 人 可 能 会 推出 这 样 的 结论 ， 认 为 GNC 与 VCD 也 同 
样 可 以 用 简单 直接 的 神经 元 网 络 来 实现 。 
.根据 以 上 结果 ， 针 对 特征 抽取 算法 的 设计 ， 我 们 推测 出 如 下 的 指导 原则 。 
。 松 弛 是 个 中 心 概念 。 一 个 松弛 算法 应 具有 以 下 特征 : 
1) 它 必 须 是 迭代 式 的 。 即 ， 算 法 每 个 循环 的 输出 量 与 输入 量具 有 同样 的 格式 ， 以 便 可 
将 算法 本 身 的 输出 量 ， 再 次 应 用 到 算法 中 。 
2) 它 必须 收敛 9。 
* 松弛 算法 在 本 质 上 必须 是 局 部 的 。 即 ， 在 任 一 时 刻 ， 任 一 像素 的 变化 仅 与 此 像素 的 局 部 
邻 域 相 关 。 依 从 这 个 原则 ， 可 使 全 局 性 相互 作用 随 着 时 间 (和 迭代 步 数 ) 和 空间 平稳 地 发 
生 ， 并 通过 Gibbs/Markov 场 的 等 价 性 为 分 析 算 子 提供 一 个 理论 基础 。 
. 扩散 与 最 优化 之 间 的 等 价 性 有 利于 理解 这 两 种 形式 的 算法 的 性 能 。 对 所 设计 的 那些 扩散 
算法 而 言 ， 将 它们 看 作 是 一 个 最 优化 松弛 (optimizing relaxation) 是 很 有 帮助 的 : 因为 所 
有 的 松弛 都 会 最 小 化 某 样 东西 ， 而 观察 扩散 步骤 (diffusion step) 的 积分 (尽管 这 一 过 


程 经 常 是 很 难处 理 的 )， 能 够 发 现在 一 种 特殊 技术 的 开发 /应 用 中 究竟 是 哪个 性 质 真 正 被 


最 小 化 了 。 对 于 所 设计 的 那些 最 优化 方法 ， 可 以 看 作 是 一 个 依照 局 部 不 均匀 程度 的 空间 
形变 ， 且 在 其 后 紧 随 一 个 平均 化 过 程 。 这 种 思路 可 以 帮助 理解 最 优化 方法 的 时 空 效应 。 


O ”一些 作者 对 松弛 的 定义 还 包括 了 第 三 个 要 求 :“ 局 域 性 ”。 我 们 在 另 一 个 圆 点 标注 的 项 中 单独 列 出 了 这 -点 。 
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“在 所 设计 的 特征 抽取 算法 中 ， 即 便 没 有 残 差 被 明确 地 最 小 化 ， 将 算法 看 作 是 一 个 复原 是 
也 是 有 益 的 。 人 们 更 容易 理解 这 一 算法 对 图 像 产生 的 精确 效果 。 

* 空间 分 析 算 法 中 的 尺度 变化 ， 与 退火 算法 中 的 温度 控制 是 紧密 相关 的 ， 二 者 的 能 力也 是 
相关 的 。 

“最 后 ,在 以 上 提 到 的 所 有 算法 中 ， 非 线性 运算 (指数 ) 是 成 功 的 绝对 要 素 。 
Kolmogorov 定 理 [6.49] 证 明了 充分 性 ， 他 指出 一 个 线性 运算 再 加 上 后 续 的 适当 的 非 线性 
化 ， 可 以 计算 任 一 种 映像 (mappings )。 我 们 主张 这 样 的 非 线 性 化 不 仅 是 充分 的 而 且 是 
必要 的 。 这 个 事实 很 可 能 对 近来 许多 神经 元 网 络 的 成 功 应 用 有 着 极其 重要 的 贡献 。 
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第 7 章 ”数学 形态 学 


A man’s discourse is like to a rich Persian carpet, the beautiful figures and patterns of which can be 
shown only by spreading and extending it out; when is is contracted and folder up, they are obscured and lost 
Ae RAS BER Oa rel 
mæ “-ology” BHR "x x 学 ”， 因 此 很 显然 ,“morphology” 指 的 是 关于 形态 的 研究 学 科 ， 
要 解答 的 是 如 下 的 重要 问题 : “它们 为 何 只 在 夜晚 出 来 ， 然 后 朝 着 明亮 处 飞行 ? ”以 及 “为 何 
微波 灭 虫 器 只 能 烤 到 那些 无 害 的 动物 ， 却 单单 不 能 对 付 “ 蚊 子 ”? ”还 有 一 一 停 住 ! 这 里 说 的 
是 形态 学 (MORPH-ology)， 研 究 的 是 形态 (SHAPE ) ， 而 不 是 蛾 子 (moth)! 再 来 一 次 …… 


7.1 二 值 形态 学 


考虑 亮度 值 仅 取 二 值 的 图 像 ， 并 以 此 为 起 点 。 这 很 重要 ， 要 记 住 ! 仅 取 二 值 ! 首先 讨论 两 
VHF, 接 下 来 ,在 理解 了 它们 的 工作 原理 后 ,我 们 将 说 明 如 何 将 它们 应 用 于 二 值 图 像 。 最 后 ， 
作为 对 二 值 形态 学 的 一 种 扩展 ， 对 灰 度 形态 学 运算 及 其 相应 算 子 进行 描述 。 


7.1.1 BBK 


首先 ， 给 出 直观 定义 : 对 一 幅 (二 值 ) 图 像 的 膨胀 结果 是 将 该 图 像 的 所 有 前 景区 域 都 稍 
稍 扩 大 之 后 的 图 像 。 

现在 ,给 出 形式 化 表示 : 考虑 两 幅 图 像 ，f 和 fs， 且 令 A4 和 8B 为 有 序 对 集 ， 分 别 由 有 和 f 中 
各 自 的 前 景 像素 坐标 构成 。 

考虑 fs 中 的 一 个 像素 ， 以 及 B 中 与 其 相应 的 元 素 (有 序 对 )， 称 之 为 EB。 通 过 将 4 中 的 每 
一 个 有 序 对 与 有 序 对 b 进 行 相 加 ， 可 生成 一 个 新 的 集合 。 让 我 们 看 一 个 小 例子 。 

对 图 像 A={(2,8),(3,6),(4,4),(5,6),(6,4),(7,6),(8,8)} ， 如 果 与 有 序 对 (一 1, 1) 相 加 ， 则 可 
得 集合 Aci ={(1,9),(2,7),(3,5),(4,7),(5,5),(6,7),(7,9)}。 相 应 图 像 见 图 7-1， 我 们 希望 读者 会 
注意 到 4 ,5 只 是 4 的 一 个 平移 。 对 这 个 概念 有 了 牢固 的 认识 之 后 ， 再 考虑 一 下 如 果 建 构 一 个 
集合 ， 由 4 关于 8 中 每 个 有 序 对 的 平移 构成 ， 会 发 生 什么 事情 ? 记 该 集合 为 Taw DEB), B, b 
是 8 中 的 一 个 有 序 对 . 


Oe NW R CAO ~I COO 
Q -NURDAN oO 





图 7-1 膨胀 例子 a) 初始 二 值 图 像 b) 关于 B={( 一 1,1)} 膨 胀 后 的 二 值 图 像 
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形式 上 上， 定义 A 关于 B 的 膨胀 运算 为 A@B={a+bl(aEA,bEB)}， 该 运算 等 同 于 对 所 有 4 
的 平移 结果 取 并 集 ， 
AGB -| JA, (7-1) 
bEB 


对 图 像 的 膨胀 ， 采 用 了 同一 个 标记 符号 : 太田 访 。 这 里 给 出 另 一 个 例子 。 














9 
8 
7 
6 
fa 5 
4 
3 
2 
1 
0 
4 
A = {(2, 8), (3, 6), (4, 4), (5, 6), (6, 4), B = {(0, 0), (0, 1)} 
(7, 6), (8, 8)} 
基于 以 上 定义 ， 
A® B= Aoo) U Aon (7-2) 
= {(2,8), (2,9),(3, 6)(3, 7), (4, 4), (4, 5), (5, 6), (5, 7), (6, 4),(6, 5), (7, 6), (7, 7), (8,8), (8, 9)} (7-3) 
且 
fae fs = 


COM toU dU OC -0o 








用 #4 表示 集合 4 的 元 素 个 数 。 在 这 个 例子 中 ，#4 =7， 且 #(A@B)=14。 这 种 情况 的 发 生 有 一 定 
的 巧合 ， 这 种 巧合 是 因为 4(0, 0) 和 4(0, 1) 之 间 不 重 倒 ， 换 一 种 方式 来 说 就 
是 : A.) N Aon =Ø. 
在 更 通常 的 情况 下 ， 则 并 非 如 此 。 通 常 

#(A@B) < #A - #B (7-4) 
为 了 进一步 讨论 ， 需 要 定义 一 些 符 号 : 假设 x 是 一 个 有 序 对 ， 则 1) 一 个 集合 4 关于 x 的 平移 5 
记 为 4,，2) 记 4 的 反对 称 集 为 A={(-x,-yl(x,y)EA)} > 3) 记 4 的 余 集 为 4.。 关 于 反对 称 集 的 
一 个 例子 如 下 : 


-2-1012 -2-10 12 
Sa fi 





O KPA ZW. RAAB ATi. BARRON. BA, MRA PIB Ia] — 78 lie 
内 的 集合 ， 且 xEs， 则 4 关于 x 的 平移 表示 为 A.={y| 对 某 个 aE4, a=atx}. 
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在 这 个 例子 中 ，A={(0,0),(1, 0), (1, 1)}， 而 4 的 反对 称 集 为 {(0, 0),(-1,0),(-1, - D. 
7.1.2 腐蚀 


HE, 定义 ( 在 一 定 程度 上 可 以 看 作 是 ) 膨胀 的 逆 运 算 一 一 腐蚀 (Erosion), 
AOB ={al(a+b)EA 对 于 所 有 (a€A,b€B)) (7-5) 
它 可 写成 如 下 用 平移 表示 的 式 子 
AGB - (A, (7-6) 


bcB 


需要 注意 两 件 事情 : 对 第 二 个 集合 B， 取 反对 称 集 ; 采用 了 交集 符号 。 再 看 一 个 例子 。 


Sts 


SHNWRUDAIMOO 


B= {(0, 0), (1, 0)} 


B = {(0, 0), (-1, 0)} 











CQ o—rt)U) CA OS 1200 





Sa, af? Sa -1, 0) 





至 此 ， 已 定义 了 膨胀 和 腐蚀 。 读 者 会 发 现 通常 (对 所 有 实际 应 用 ) 其 中 的 一 幅 图 像 比 另 一 幅 
图 像 要 “小 ”; 即 在 上 述 例子 中 
#A>>#B (7-7) 


在 这 种 情况 下 ， 称 小 一 点 的 图 像 户 为 “结构 元 素 "。 
7.1.3 膨胀 与 腐蚀 的 性 质 
“ 交换 律 :膨胀 满足 交换 律 ， 即 可 以 交换 两 幅 图 像 的 次 序 而 进行 膨胀 ， 不 会 改变 结果 
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AGB-BGA (7-8) 
。 结合 律 : 膨胀 满足 结合 律 ， 即 可 以 对 多 幅 图 像 之 间 进 行 的 膨胀 运算 按 任意 次 序 组 合 ， 不 
改变 结果 
(A46 B)OC = AG(BOC) (7-9) 
“SRE: 对 于 一 幅 图 像 与 另 一 幅 由 两 幅 图 像 并 集 生 成 的 图 像 进 行 膨 胀 ， 可 以 先 膨胀 后 取 
并 集 。 换 句 话 说 ， 可 以 把 膨胀 运算 分 布 到 括号 内 的 所 有 项 


A@(BUC) =(A@B)U(A@C) (7-10) 
。 增 长 性 : WMRACB, WISHESEBJEZSTJICSK, 4 
A®KCB@K (7-11) 


当 满 足以 上 性 质 时 ， 我 们 说 该 算 子 是 “增长 的 ”。 
一 个 例证 : 膨胀 是 增长 的 
令 集合 4 由 元 素 4 组 成 ，4={41, An …, 4,}， 以 间 样 方式 定义 8。 此 外 ,假定 BC A。 现在 ， 
假设 4 和 8 均 关 于 同一 个 结构 元 素 K 膨 胀 。 取 KK 的 一 个 元 素 ， 记 为 K,， 令 4 的 每 一 个 元 素 关于 KK， 
WK, AOK,-(A + KK, 久 +KK,…,A,+K}， 并 以 同样 方式 脱 胀 3。 由 于 B 中 的 每 个 元 素 也 是 4 
中 的 元 素 ， 因 此 B@K, 中 每 个 元 素 也 属于 A@KI。 由 于 对 K 中 任意 元 素 的 观测 结果 均 满足 以 上 关 
系 ， 因 此 所 有 KK 的 元 素 也 都 满足 。 现 在 考虑 对 应 用 结构 元 素 K 中 的 两 个 元 素 对 4 膨胀 后 的 结果 
取 并 集 : AQ-(AOGKQ)U(AOK,). HT BOK, CA@K H BOK,CAOK, , 我们 从 集合 论 
中 可 知 如 果 尽 U5 AR, US, , MR UR CSUS, 由 此 证 明 完 毕 。 
。 外 延性 (extensive property) 与 抗 外 延性 (anti-extensive property): 如 果 我 们 称 一 个 算 
子 是 “外 延 的 "， 意 思 是 将 该 算 子 应 用 到 一 个 集合 4， 可 生成 一 个 包含 4 的 结果 。 当 结构 
元 素 包 含 了 原点 〈 即 元 素 (0,0)) Hj, BEER P ERU: 
A®KDA (7-12) 


如 大 家 所 猜测 的 ， 腐 蚀 也 有 某 种 外 延性 : 即 ， 腐 蚀 是 “ 抗 外 延 的 "。 如 果 oEB， 则 AOBCA , 
其 中 o 代 表 位 于 原点 的 元 素 。 
“对偶 性 〈duality): 对 侦 性 与 DeMorgan 定 律 相似 ， 它 将 集合 的 补 运 算 、 脱 胀 运算 以 及 腐 
蚀 运 算 联 系 起 来 。 


(A8B) = A^ @B 
(A@ BY = A°@B © (7-13) 
其 中 上 标 c 表 示 集 合 的 补 运算 。 
。 腐 蚀 的 其 他 性 质 。 

A0(BG C) - (ABB)OC (7-14) 
(AU B)@C 2(A8C)U(BO8C) (7-15) 
A@(BN C) 2 (40B) U (ACC) (7-16) 
A@(BU C) = (A@B)M (ABC) (7-17) 


警告 : 不 能 撤销 已 完成 的 形态 学 运算 。 例如， 对 4 = BBC， 令 两 边 均 关 于 CC 膨胀， 得 
4@95C=(B89C)@C， 如 果 脱 胀 与 腐蚀 的 确 互 为 送 ， 则 右 式 应 该 等 于 B。 但 事实 上 ， 右 式 是 B 关 于 C 
的 开 运 算 ， 而 不 是 等 于 B 那 样 简单 。 








数学 形态 学 115 


7.1.4 开 运 算 与 闭 运算 
f, 关 于 一 个 结构 元 素 户 的 开 运 算 (opening) 可 写 为 


Jop =(f,Of5) 9 fs (7-18) 
H (大 家 可 能 猜 到 ) f 关于 一 个 结构 元 素 户 的 闭 运算 (closing) 可 写 为 
fa^ fg = (fs 8 f9)8fs (7-19) 


一 个 应 用 

那么 所 有 这 一 切 都 是 为 了 什么 ? 让 我 们 看 一 个 例子 : 检验 印 制 电路 板 。 这 里 有 一 幅 印 制 
电路 板 的 图 ， 在 通过 波动 焊接 机 时 ， 两 个 轨迹 线 被 一 根 粘 在 板 上 的 头发 短路 了 。 我 们 采用 开 
运算 来 检验 这 个 短路 。 


首先 ， 用 一 个 小 的 结构 元 素 腐蚀 该 图 像 。 选 择 一 个 比 所 感 兴趣 的 特征 (轨迹 线 ) 小 一 些 ， 
但 比 环 症 大 一 些 的 结构 元 素 。 则 腐蚀 后 看 起 来 如 下 图 : 


现在 ， 再 使 用 同样 的 结构 元 素 膨胀 回来 ， 


此 时 ， 可 以 非常 惊奇 地 发 现 瑕 症 不 见 了 。 为 了 达到 检验 的 目的 ， 可 以 从 原始 图 像 中 减 去 开 运 
算 结果 ， 则 所 得 图 像 将 仅 包 含 环 症 。 此 外 ， 这 些 运算 还 可 以 由 硬件 实现 ， 以 异常 快 的 速度 运 
行 。 

另 一 种 对 开 运 算 的 思考 方式 

Sx 关于 fr 的 开 运算 ,就 是 精确 地 选择 了 f 中 ， 那 些 以 如 下 方式 与 斥 相 “匹配 ”的 点 : 取 结 
构 元 素 fx ， 并 将 它 放置 在 f 上 ， 使 得 fx 的 每 个 前 景 像素 都 能 够 覆盖 f, 中 的 某 个 前 景 像素 。 如 
果 能 够 找到 一 个 满足 以 上 条 件 的 位 置 放置 结构 元 素 ， 则 A 中 每 个 被 覆盖 的 像素 都 在 开 运算 结 
果 中 。 现 在 ， 在 四 周 移动 (只 准 平移 ) fc ， 并 找到 每 个 这 样 的 点 一 一 每 个 可 以 放置 结构 元 素 
的 位 置 ， 使 其 完全 在 图 像 内 。 被 覆盖 的 像素 集合 即 决定 了 f 关于 f 的 开 运算 的 结果 。 这 里 有 
一 个 一 维 开 运算 的 例子 ， 就 是 从 这 样 的 角度 来 观察 的 (摘自 Haralick 和 Shapiro[7.12])。 令 A 是 
开 区 间 


A=(3.1,7.4)U(11.5,11.6) U (18.9,19.8) (7-20) 
并 使 用 结构 元 素 K=( 一 1, 1) 进 行 开 运算 。 则 
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AoK = (3.1,7.4) (7-21) 


这 个 例子 首先 表明 了 形态 学 的 概念 可 以 扩展 到 连续 域 。( 但是， 请 暂时 记 住 ， 是 在 分 辩 率 
上 连续 ， 而 不 是 在 亮度 值 上 连续 ， 亮 度 值 仍然 是 二 值 的 。 我 们 很 快 会 修正 这 一 点 ,) 第 二 ， 它 
表明 了 这 样 一 个 事实 : 开 运算 精确 地 保留 了 “足够 大 的 ”对 象 的 几何 形状 ， 而 完全 删除 了 小 
一 些 的 对 象 。 在 这 个 意义 上 ， 开 运算 类 似 于 均值 滤波 器 的 功能 、 后 者 使 每 个 像素 都 被 其 邻 域 
亮度 的 均值 所 替代 。 


7.15 开 运 算 与 闭 运算 的 性 质 


开 运 算 与 财运 算 的 一 些 性 质 罗 列 如 王 〈 应 该 做 好 准备 计算 其 中 的 某 些 性 质 ) : 
。 对 偶 性 : (AoK) =A °K. 
对 偶 性 证 明 注意 该 证 明 是 如 何 完成 的 。 我 们 希望 读者 能 够 仔细 地 加 以 证 明 。 
1) (AoKY ={(AOK) @ KY 开 运 算 的 定义 
2) =(AOK) OK 膨胀 的 补 集 
3) =(A°@K)OK 腐蚀 的 补 集 
4) =A °K 闭 运算 的 定义 。 
。 等 血性 (idempotency): 开 运算 和 闲 运算 是 等 圭 的 。 即 同一 运算 的 循环 执行 不 会 产生 更 
进一步 的 影响 : 
AoK =(AoK)oK 
(A* K) -(A* K)* K 
。 闭 运算 是 外 延 的 : A'K2A,. 
。 开 运算 是 抗 外 延 的 : AOKCA | 
。 关 于 fx 膨胀 后 的 图 像 在 关于 fx 进行 开 运算 后 保持 不 变 。 即 h@fx=0@ f)ofk. 
证 明 
1) A*K 2A 这 是 因为 闭 运 算是 外 延 的 
2) (A*K)@®KDAOK 因为 膨胀 是 增长 的 
3) (A@K)OK)OKDAOK 闭 运 算 的 定义 
4) (A®K)oK DAOK 开 运 算 的 定义 
5) SERB, BoKCB 开 运 算是 抗 外 延 的 
6) 从 而 ，(4 田 天)oK C A@@K ， 用 4@K 替 代 B 
7) (AO K)oK = AO K 这 是 因为 4A@K 既 大 于 等 于 又 小 于 等 于 (4@BK)ok， 因 而 只 能 是 相等 


快速 计算 开 运算 与 闭 运算 

任何 平移 不 变 的 递增 运算 (四)， 例 如 开 运 算 和 闭 运算 ， 可 通过 如 下 形式 的 并 集运 算 来 

实现 | | 
w(A)-| JAOK, - (7-22) 

JUBK-UG, Ky, …)} 是 某 个 结构 元 素 集合 ， 被 称 为 该 运算 的 一 个 基 集 (basis set)。 腐 蚀 可 以 并 

行 计 算 ， 而 并 集运 算 可 采用 查找 表 方法 快速 运行 。 请 参见 [7.17] 中 更 详细 的 描述 。 
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7.2 灰 度 形态 学 


到 目前 为 止 ， 均 假定 所 处 理 的 图 像 为 二 值 图 像 。 现 在 ， 放 开 这 个 要 求 并 允许 可 取 一 个 
有 限 范围 /min。<f<fmaxs 内 的 连续 的 值 。 在 这 种 扩展 下 ， 由 于 并 集 算 子 (union operator) 没 
有 定义 ， 从 而 无 法 再 对 膨胀 等 运算 进行 简单 的 定义 。 为 了 定义 灰 度 图 像 的 形态 学 运算 ， 需要 
首先 定义 一 个 新 的 概念 ,“ 本 影 ”(umbra ) 。 

二 维 灰 度 图 像 的 本 影 UC) 是 所 有 满足 0<U<f (x, y) 的 有 序 三 元 组 (x, y, U0) 的 集合 。 如 果 把 
所 看 作 是 连续 值 ， 则 U0) 是 一 个 无 限 集合 。 为 了 使 形态 学 运算 变 得 可 行 ， 假 定 有 量化 为 M 个 值 ， 

#U(f,) <M - #A (7-23) 

为 了 说 明 本 影 的 概念 ， 令 有 凡是 一 维 图 像 。( 这里， 将 一 维 函 数 解释 为 某 一 维 始终 为 零 的 二 

维 函 数 。 现 在 给 出 一 个 例子 ， 可 以 很 容易 地 将 它 扩展 为 二 维 函 数 ): 
A={(0,0),(1,0),(2,0),(3,0),(4,0),(5,0),(6,0)} 

其 相应 坐标 的 像素 值 为 ' 
f. 5,0) = [1,2,3,1,2,3,3] 


注意 新 的 标记 : 由 于 f 可 取 不 同 的 值 ， 这 取决 于 考虑 的 是 4 中 的 哪 一 个 元 素 ， 因 此 采用 了 函数 
符号 。 画 出 有 可 得 图 7-2。 
在 图 7-2 中 ， 黑 粗 线 代表 f， 本 影 是 有 下 面 的 阴影 区 域 。 这 幅 图 中 ， 黑 粗 线 位 于 本 影 顶 部 。 
可 将 本 影 写 为 一 个 有 序 三 元 组 的 集合 : 
U(f,) = {(0,0,1), (1,0,1), (1,0, 2), (2,0, 1), (2,0, 2), (2,0,3), (3,0,1), 
(4,0,1), (4,0, 2), (5,0, 1), (5,0, 2), (5,0, 3), (6, 0, 1), (6, 0, 2), (6, 0, 3)} 


fa (x, 0) 
3 





图 7-2 对 本 影 的 举例 说 明 


这 里 有 一 个 奇特 之 处 : 尽管 灰 度 图 像 不 再 是 二 值 的 〈 从 而 不 能 用 集合 隶属 关系 来 表示 )， 但 本 
影 仍 然 具备 那些 二 值 图 像 所 具有 的 性 质 。 
因此 可 以 定义 一 幅 灰 度 图 像 关于 灰 度 结构 元 素 fs 的 膨胀 为 
fax, y)® falx, y) = TOR(UCf,) GU(Cf,)) (7-24) 
腐蚀 也 可 同样 方式 定义 。 此 外 ， 灰 度 开 运算 和 闭 运算 可 根据 灰 度 膨胀 和 腐蚀 来 定义 。 
推广 这 种 概念 至 二 维 图 像 ， 则 本 影 变 成 三 维 的 ， 是 如 下 三 元 组 的 集合 
U(f(x,y)) = {(x, yz) (z < f(x, y») (7-25) 
那么 ， 灰 度 膨胀 和 腐蚀 可 简洁 地 写 为 
8(x,y) Oh(x,y) = {(x,y,z) | (z < max(g(x - x,y - y) + ho.) VG. y) 
g(x, y)8h(x, y) = {(x,y,z) | (z < min(g(x - x,y - y.) - hG3,)0)) VG y) 


Ww 
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对 于 (4,9 )EQCZxZ ， 其 中 2 代表 可 能 的 像素 位 置 的 集合 ， 这 里 假定 像素 位 置 取 正 整数 。 


7.3 距离 变换 


形态 学 运算 的 一 个 非常 重要 的 应 用 是 它 引 出 了 距离 变换 (The distance transform, DT). 
有 多 种 定义 距离 变换 的 方式 ， 我 们 在 第 7A.4 节 FTTTTI | 
中 给 出 了 一 种 ， 但 这 里 将 介绍 另外 一 种 定义 ， 
比 先前 的 要 简单 。DT 对 图 像 的 一 种 表示 法 ， 
DT 中 的 每 个 像素 都 包含 了 从 某 个 特征 到 输入 
图 像 中 相应 像素 之 间 的 距离 。 最 常见 的 情况 下 ， dE M is 
采用 某 个 边缘 作为 特征 。 在 本 节 ， 将 区 域 R 的 ee 
边界 作为 特征 ， 并 用 点 集 9R 来 表示 。 图 7-3 举 图 7-3 区 域内 部 的 像素 用 阴影 表示 。 假 定 边界 恰好 


例 说 明了 该 区 域内 部 的 距离 变换 。 位 于 区 域外 部 。 图 中 显示 了 在 计算 中 采用 4 





DT(x) = min ,enlz= 叫 (7-26) 
其 中 x 和 ?是 坐标 的 两 个 向 量 。 这 个 变换 是 如 下 微分 方程 的 一 个 解 
|VDT(x)| =1 (7-27) 


其 初始 条 件 为 DT(x)=0, xcoR, 

我 们 可 以 采用 传统 形态 学 运算 来 计算 距离 变换 : 假设 期 望 获得 与 对 象 外 部 边缘 之 间 的 距 
离 。 采 用 某 种 “适合 的 ”结构 元 素 重复 腐蚀 图 像 。 每 消失 一 个 像素 ， 记 录 下 像素 消失 时 的 迭 
代步 数 。 将 该 迭代 步 数 储存 到 相应 像素 中 作为 距离 变换 。 非 常 简单 ， 对 吗 ? 这 种 定义 并 不 能 
完全 给 出 欧 氏 距离 。Huang 和 Mitchell [7.15] 给 出 了 如 何 采用 灰 度 形态 学 获得 欧 氏 距离 的 变换 ， 
Breu 等 [7.60] 给 出 了 如 何在 线性 时 间 内 计算 欧 氏 距离 的 变换 。 在 这 种 迭代 式 腐 蚀 中 ， 一 个 有 趣 
的 问题 是 “这 些 点 到 哪里 去 了 ? ”可 以 证 明 ， 对 一 个 严格 凸 的 结构 元 素 ， 这 些 点 沿 着 与 腐蚀 
的 区 域 边界 相 垂直 的 方向 消失 了 [7.43]。 


7.3.1 采用 掩 模 计算 距 离 变 换 T= H 
计算 距离 变换 可 以 通过 迭代 应 用 一 个 如 图 
irr dpi Pee 图 7-4 用 于 计算 4 连通 邻 域 距 离 变换 的 掩 模 。 访 拓 
在 第 m 步 迭代 中 ， 采 用 如 下 方程 来 更 新 距 模 的 原点 用 一 个 加 号 标记 出 来 
离 变 换 
D" (x, y) = min, jj (D"^ (x +k, y+ +T7(k,D) (7-28) 


现在 给 出 更 详细 的 解释 : 首先 ， 距离 变 换 D(x, y) 在 每 个 非 边缘 点 上 都 初始 化 为 一 个 特殊 符号 
“无 穷 大 ”，D"(x,y) = %, V(x,y) GOR 。 而 对 于 任意 边缘 点 ， 则 取 零 D(x, y)=0,V(x,y)EOR 。 
然后 ， 从 图 像 的 左上 角 开 始 应 用 掩 模 ， 将 掩 模 的 原点 置 于 图 像 中 的 像素 (1, 1) 上 ， 并 应 用 公 
X (7-8) 来 计算 (1,1) 上 新 的 距离 变换 的 值 。 在 图 7-5 所 示例 子 中 ， 距 离 变换 用 一 个 空白 方 
块 所 表示 的 无 限 大 来 代表 ， 而 边缘 则 用 零 来 代表 。 将 图 7-4 所 示 掩 模 应 用 于 阴影 区 域 ， 则 计算 
公式 (7-28) 的 结果 可 得 到 箭头 所 指示 像素 的 距离 变换 值 min(1+0, 1+%)。 

经 由 自 顶 向 下 ， 自 左 向 右 的 一 次 遍历 后 ， 翻 转 掩 模 (在 两 个 方向 上 )， 再 次 自 底 向 上 ， 自 
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右 向 左 地 应 用 掩 模 。 

在 每 一 个 像素 上 重复 这 一 过 程 ， 这 样 遍历 图 像 中 的 所 有 像素 ， 然 后 再 重复 迭代 ， 直 至 距 
离 变 换 (DT) 中 的 所 有 像素 都 标记 为 一 个 有 限 值 。 采 用 与 图 7-4 所 示 掩 模 不 同 的 掩 模 ， 可 生成 
距离 变换 的 其 他 形式 。 特 别 地 ， 图 7-6 可 生成 切削 映射。 如 果 除 以 三 ， 则 切削 映射 生成 的 距离 
变换 ， 可 相当 不 错 地 近似 欧 氏 距离 。 


7.3.2 Voronoi 


在 本 书 的 后 面部 分 ， 将 考虑 区 域 之 间 的 连接 状态 ， 以 及 相 邻 区 域 之 间 的 关系 。 我 们 也 会 
偶尔 需要 考虑 并 不 真正 相 接触 的 两 个 区 域 之 间 的 关系 。 对 此 ， Voronoi 图 的 概念 是 非常 有 用 的 。 
在 本 节 介 绍 这 个 概念 ， 是 因为 它 与 距离 变换 之 间 具 有 某 些 相 似 特性 。 

考虑 图 7-7 所 示 图 。 在 该 图 中 ， 白 色 圆 圈 中 的 若干 区 域 有 灰色 块 。 对 任意 区 域 i， 该 区 域 的 
Voronoi 域 是 一 些 点 的 集合 ， 这 些 点 与 该 区 域 中 点 的 距离 要 比 与 其 他 区 域 中 点 的 距离 更 近 : 

V, = {x1d(x,P) <d(x,P,),W(j = i)} (7-29) 


其 中 Pi 代表 区 域 : 中 的 任意 点 。 





图 7-5 计算 某 个 特定 点 上 的 距离 ”图 7-6 一 个 可 生成 切削 映射 (使 用 模板 图 7-7 若干 区 域 以 及 得 到 的 
变换 值 ， 结 果 为 1 进行 距离 变换 的 方法 ) 的 掩 模 Voronoi 图 


同 其 中 的 两 个 区 域 等 距离 的 点 的 集合 称 为 Voronoi 图 ， 并 在 图 中 用 黑 线 表示 。 这 等 于 是 说 ， 
Voronoi 图 中 的 点 不 能 属于 任意 一 个 区 域 的 Voronoi 域 。 
7.4 结论 

本 章 着 眼 于 一 种 特殊 的 处 理 区 域 形状 的 方法 。 形态 学 运算 对 二 值 图 像 是 尤其 有 用 的 ， 但 


也 可 以 应 用 到 灰 度 图 像 中 。 和 本 书 中 的 大 多 数 章 不 同 的 是 ， 本 章 没有 使 用 最 优化 方法 或 者 一 
致 性 。 


7.5 术语 
闭 运算 closing 
膨胀 dilation 
距离 变换 distance transform 
腐蚀 erosion 


Sp RE RY extensive 








120 K7* 


增长 的 increasing 

开 运 算 opening 

本 影 umbra 

Voronoi 图 Voronoi diagram 
作业 7.1 


在 第 7.1.3 节 中 ， 说 明了 膨胀 满足 交换 律 是 由 于 加 法 满足 交换 律 。 腐 蚀 运 算 也 包含 了 加 法 ， 
只 是 需要 对 两 幅 图 像 中 的 一 幅 取 其 对 称 集 。 那么， 腐蚀 满足 交换 律 吗 ? 请 证 明 是 正确 的 或 是 
错误 的 。 


作业 7.2 


在 第 7.3 节 ， 提 供 了 一 个 掩 模 ， 并 说 明了 应 用 该 掩 模 可 生成 一 个 距离 变换 ， 而 该 距离 变换 
“相当 不 错 地 近似 ”从 内 点 到 最 近邻 边缘 点 的 欧 氏 距离 。 那 么 它 是 的 确 很 不 错 吗 ? 请 找 出 一 个 
例子 ， 使 得 应 用 该 掩 模 而 生成 的 值 ， 不 同 于 到 最 近邻 边缘 点 的 欧 氏 距离 。 


作业 7.3 


考虑 一 个 面积 为 5300 像素 ， 边 界 为 120 像 素 的 区 域 。 请 找 出 每 个 内 部 像素 到 边界 的 距离 变 
换 ， 并 使 用 欧 氏 距离 。( 注 意 : 位 于 边界 上 的 像素 不 认为 是 在 区 域 之 内 ， 至 少 在 这 个 问题 上 是 
XH.) 计算 复杂 度 是 多 少 ? 注意 : 可 能 你 所 提出 的 算法 ， 优 于 得 出 如 下 答案 的 算法 ， 因 此 如 
果 你 的 算法 不 能 得 出 如 下 结果 ， 请 给 出 解释 说 明 。 

a) 60000 

b) 120000 

c) 45600 

d) 91200 


作业 7.4 


一 个 技巧 性 问题 : 为 了 解答 作业 7.3 中 的 问题 ， 需 要 计算 多 少 个 平方 根 才能 确定 这 个 距离 
变换 ? 记 住 ， 是 欧 氏 距离 。 


作业 7.5 


请 证 明 (或 者 证 明 为 错 ) 二 值 图 像 在 经 由 一 个 核 K 腐 蚀 后 ， 再 经 K 做 闭 运算 ， 图 像 保 持 不 
变 。 即 , 证 明 AOK =(AOK)*K 。 


作业 7.6 
请 证 明 如 果 结构 元 素 不 包含 原点 ， 则 膨胀 不 一 定 是 外 延 的 。 
作业 7.7 

请 证 明 膨 胀 是 增长 的 。 














作业 7.8 


令 C 是 仅 含 单个 黑色 像素 的 一 类 二 值 图 像 。 给 定 此 类 图 像 中 的 某 个 特定 图 像 ， 令 此 黑色 像 
素 位 于 (io,jo)。 

请 设计 一 个 算 子 ， 采 用 包含 元 素 {(0, 0)} 的 核 ， 做 腐蚀 以 及 膨胀 运算 ， 即 ， 由 腐蚀 与 膨胀 ， 
以 及 结构 元 素 〈 可 能 只 需要 一 个 结构 元 素 ， 也 可 能 需要 多 个 ) 组 成 的 集合 ， 使 得 该 结构 元 素 
应 用 于 C 的 一 个 元 素 时 ， 输 出 图 像 中 的 黑色 像素 移动 到 (iot2,.jot1) (忽略 边界 )。 


作业 7.9 


如 下 式 子 中 哪 一 个 是 正确 的 ? (应 仅 通过 式 子 来 推论 ， 而 不 必 做 任何 证 明 。 ) 
(a)(495)9C = A@(BOC) (7-30) 
(b) (A@B)OC = AQ(BO@C) (7-31) 


作业 7.10 


采用 作业 5.5 以 及 作业 5.6 中 生成 的 阐 值 化 后 的 图 像 。 选 择 一 个 合适 的 结构 元 素 ， 然 后 应 用 
开 运算 消 除 噪 声 。 


专题 7A 形态 学 
7A.1 有 效 地 计算 腐蚀 、 脱 胀 
公式 (7-14) (或 公式 (7-31)) 是 正确 的 ， 这 正 是 我 们 希望 大 家 在 做 作业 7.9 时 能 够 推断 


出 的 结论 。 也 就 是 说 关于 一 个 大 的 结构 元 素 (比方 说 K) 的 腐蚀 ， 可 以 分 段 为 两 个 相 续 的 腐蚀 、 


首先 关于 B， 然 后 再 关于 C， 只 要 我 们 能 够 找到 8B 和 C， 使 得 K=B@C。 有 时 这 种 情况 称 为 腐蚀 
的 “ 链 规则 ”。 它 对 硬件 实现 有 着 巨大 的 影响 。 

假设 有 特定 的 硬件 ， 能 够 以 帧 速率 完成 结构 元 素 为 3 x 3 的 腐蚀 运算 。 但 在 一 些 应 用 中 ， 
却 需 要 采用 一 个 特定 的 4 x 4 结构 元 素 进行 腐蚀 。 链 规则 说 的 是 ， 此 时 假如 能 够 (以 某 种 方式 ) 
找到 两 个 3 x 3 结构 元 素 ， 使 得 关于 它们 的 膨胀 也 就 是 所 需要 的 关于 4 x 4 结构 元 素 的 膨胀 ， 则 
通过 这 个 特定 的 硬件 对 输入 图 像 遍历 两 遍 ， 就 能 得 到 同样 的 结果 。 但 是 如 何 找到 6 和 C 昵 ? 为 
了 说 明 应 该 如 何 完成 这 一 点 ， 现 在 考虑 一 个 非常 简单 的 分 解 方法 ， 即 分 解 为 一 组 仅 包含 两 个 
元 素 的 结构 元 素 ， 这 两 个 元 素 包 括 原 点 和 另外 某 一 个 点 。 即 期 望 找到 已 , H, …, Hy, EE 
AOH-(C7-[(AOH)OH;]|--). HH, =0, p;)。 可 采用 如 下 方法 来 寻找 p [7.12]: 在 H 中 的 所 有 点 对 
中 搜索 一 对 点 p, 和 p,， 使 及 在 关于 这 两 个 点 的 差 的 开 运 算 下 是 不 变量 H=Ho{0, p-p} MR 
到 这 样 的 两 个 点 ， 则 已 =(0, pi 一 ps)， 我 们 用 右 相 减 而 得 H' = HOH, 。 递 归 地 完成 这 一 过 程 。 如 
果 无 法 找到 这 样 的 两 个 点 ， 则 试图 搜索 四 个 点 pi, Po Po po {ZTE H = Ho{p - Py, P3 - P4} > 

Matheronf7.21] 证 明了 任意 大 的 形态 学 运算 都 能 够 转化 为 一 组 腐蚀 的 并 集运 算 ， 或 者 根 
据 对 偶 性 ， 转 化 为 一 组 膨胀 的 交集 运算 。 如 何 选择 一 组 “ 基 集 * ， 以 便 在 这 种 方式 下 ， 使 用 
给 定 结构 元 素 完 成 给 定 运算 ， 一 直 以 来 都 是 一 个 相当 重要 的 研究 课题 [7.18 7.20]. 
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分 解 为 一 组 3 x 3 的 结构 元 素 
下 面 ， 将 解释 说 明 Park 和 Chin 的 方法 [7.23]， 并 采 
用 他 们 的 例子 。 这 里 也 将 对 算法 进行 介绍 。 读 者 可 以 参 
考 原 论文 以 了 解 相关 理论 。 本 节 给 出 的 例子 来 自 [7.23]。 
为 了 理解 结构 元 素 的 分 解 方法 ， 需 要 首先 了 解 第 
9.5 节 描述 的 关于 链 码 的 知识 。 链 码 ， 是 对 沿 着 逆 时 针 
方向 围绕 一 个 区 域 行走 的 一 种 表示 方法 ， 这 种 方法 采用 Ws 八 个 方向 ， 可 在 边界 处 沿 着 其 中 





了 一 个 数字 序列 ， 序 列 中 所 有 数字 都 在 0 和 和 7 之 间 ， 代 表 个 方向 从 一个 像素 走 到 另 一 个 像素 
每 一 步 的 行走 方向 ( 见 图 7-8)。 在 这 项 工作 中 ， 稍 稍 扩 
展 了 链 码 的 概念 ， 使 得 不 仅 包括 了 八 个 主 方向 上 单个 , ee we 
像素 的 跨 步 ， 还 包括 了 沿 着 一 些 特定 类 型 的 凹 的 边界 VW CS, 
片断 的 跨越 。 | "tote te att 
现在 将 结构 元 素 分 解 为 一 组 3 x 3 元 素 。 首 先 ， 观 察 oo 4h 5 
发 现 可 填充 一 个 3 x 3 区 域 的 目的 边界 片断 类 型 仅 有 28 ree tat tat 
种 。 图 7-9 中 列举 出 了 所 有 类 型 并 为 它们 命名 。 | ee en 
现在 定义 一 类 相当 普通 的 结构 元 素 ， 是 单 连 通 的 i ta 
(没有 空洞 )， 且 边界 可 表示 为 某 种 形式 : -SSA MH 
边界 片断 和 链 码 主 方向 的 正则 表达 式 。 例 如 ， 正 则 表达 nany h 
式 Lo24? 代 表 了 一 条 这 样 生成 的 曲线 ， 从 LL 片断 出 发 ， eot s 
接 下 来 沿 着 “2” 方 向 前 进 两 步 (上 标 代表 重复 次 数 )， fo Ro R R 
最 后 沿 着 “4” 方 向 前 进 两 步 ， 如 图 7-10 所 示 。 “eo we ge 8 
能 够 采用 该 算法 来 分 解 的 一 类 结构 元 素 就 是 所 有 单 Re Rs Om Rm 
连通 结构 元 素 的 集合 ， 这 些 结构 元 素 的 边界 可 以 写 为 如 ”图 7-9 3 x 3 图 像 中 可 能 出 现 的 外 边界 。 
下 形式 (在 这 种 定义 下 ， 下 标的 顺序 是 很 重要 的 ) 数字 代表 第 一 个 链 码 的 方向 
Ur Jin n RSeo 0* Jin yn Rem 1% eJ Vi Rie 7 (7-32) 


其 中 任何 一 个 上 标 都 可 以 是 零 。 例 如 ，Vl22R2463R, 是 该 集合 中 的 一 员 ， MAS MAE 
定义 
称 图 像 4 是 图 像 S 的 一 个 因子 (factor)， 当 且 仅 当 能 e caste, 
够 把 5 写 为 关于 4 的 膨胀 ， 即 5=4@B。 称 因子 A 是 一 个 素 + 
因子 (prime factor), 4 HR 4APRED MART ERS 
与 单 像素 图 像 之 外 的 任意 形式 。 在 表 7-1 中 ， 列 出 了 所 图 7-10 图 例 表示 如 何 用 L024 来 描述 
有 从 Ro 出 发 的 素 因子 。 素 因子 并 不 要 求 满足 公式 (7-32) 一 个 形状 。 LAERE 
的 形式 。 在 表 7-2 中 ， 介 绍 了 其 他 素 因子 ， 但 只 列 出 了 
它们 的 链 码 表示 。 
现在 ， 用 一 个 例子 来 说 明 结构 元 素 的 分 解 方 法 。 现 在 分 解 如 图 7-11 所 示 的 结构 元 素 ， 其 
链 码 是 5 = 0°12 R4 RO 。 将 该 边界 上 的 凹 的 部 分 记 为 mw=Lo, vR, wm=R,。 而 凸 的 部 分 记 
为 d1=0, d,=1, d,-2, d,-4, ds=6。 
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表 7-2 其 他 从 U。， Jo, lo; Vi RyRR, Hj Zt ESSE ERIT, 为 了 获得 i=2， 4， 6 时 的 V, J; $, 


给 每 个 链 码 加 i。 而 i=3, 5, 7 时 ， 则 给 每 个 链 码 加 (i 一 1) 








Uo Uo002224? 
Jo J90224? 
Ji 万 22426 
Lo L224? 
Vi V 224? V, 
Vi Vi234V; 
V V, V34262 
V VW V3 R 5 6 
Vi V12252 
Vi V1326? 
Ro Ro2245 
Ro Ro242 
Ro RoR35 
Ri ROV, 
R; R125? 

RI R, R46? 


Up 02234 
Jo0234 
112245 
L9234 
Vi2?4 Rg 
V123Re 
VW V34? V; 
Vi V35? 
Vi245 
V3?V; 
Ro22V56 
RoV3476 
Ro R346 
R124 Re 
R,346? 
RRQV 


U 0124? 
Jo1242 
J, 2346 


V12? V6? 
Vi2R46 
V1 V3456 
Vi R3462 
Vi VV; Vj 
V,346 
Ro2? Rs 
RoV345 
Ro 376 
R12V56? 
R434V; 
R,426 


U90134 
J9134 
J1235 


V12? V; Vy 
Wu 2R, V 
Vi V34 Re 
Vi R34V3 
V, R3 Re 
Vi35 
Ro235 
Ro V3 Vs6 
Ro34 
R12VsV 
R1356 
R145 


Vi22R56 
Vi24?6 
Vi V3 V56? 
Vi R356 


Ro2 R46 
Ro V3 Rs 


RI2Rs6 
R13R6 








首先 ， 确 定 所 有 包含 L。、Rs 和 Rs。， 并 与 该 图 像 相 容 的 素 因 子 ， 如 图 7-12 所 示 。 为 了 更 清楚 


地 理解 它们 是 如 何 与 图 像 相 容 的 ， 考 虑 片断 R601， 观 察 到 这 与 图 7-11 中 右上 角 的 R, 片 断 相 配 。 


000000 e. eee See e ° 
eeccece . ee ee e 
0000000 Lo224? R46201 — R,60? R602? Rel2 
eecccce (R0245) (R24) — (24) — (Rg 34) 
0000o 
000e A; 42 43 A4 As 
图 7-11 一 个 待 分 解 为 一 组 3 x 3 元 素 的 图 7-12 与 图 7-11 中 的 边界 片断 相 匹配 的 素 因子 ， 括 号 内 的 
结构 元 素 编码 表示 旋转 后 所 得 等 价 边界 从 R 出 发 的 编码 


这 一 过 程 的 下 一 步 是 建构 一 个 矩阵 9@9， 其 中 6 代表 vw 在 4 中 发 生 的 次 数 。 在 这 个 例子 中 ， 
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PRL, REA MAPA RAT —K, AEA. AMARRE. BER. HUE 
DERRER, RQ, 是 对 4 在 4 中 发 生 的 次 数 的 计数 。 这 个 例子 中 ， 


01210 
0100 1 
0-200 2 1 
20000 
02 10 0 


再 定义 两 个 向 量 ，Y 代 表 v, 在 初始 边界 发 生 的 次 数 ， 而 Z 则 代表 di 在 初始 边界 发 生 的 次 数 。 在 
这 个 例子 中 ，Y=[1 11] 且 Z=[3 14 3 1]7。 满 足 如 下 式 子 的 向 量 X 

OX=Y 

QX<Z 


是 该 分 解 的 一 个 解 。 在 这 个 例子 中 ，X=[10110]7 满足 以 上 两 个 方程 。 注 意 @X=[30421]" 小 于 等 
于 Z， 也 就 是 BX 的 每 个 元 素 都 要 小 于 等 于 Z 中 相应 元 素 。 从 而 ， 可 以 经 由 关于 4 的 膨胀 一 次 ， 
关于 A4; 的 膨胀 零 次 ，4; 一 次 ，A4 一 次 ， 以 及 4s 零 次 ， 来 分 解 边界 ， 这 一 过 程 可 以 表示 为 
S-A,0A, GA, GB, 4 

现在 只 剩 下 一 件 事情 ， 就 是 确定 核 8。 办 法 是 考虑 BX 与 之 间 的 V^ 
差 。Z -BX=[01011]?。 因 此 ， 所 求 的 核 的 边界 可 通过 序列 d,, d,, d% 
描述 ， 每 一 个 仅 重复 一 次 。 这 一 序列 是 146， 如 图 7-13 所 示 。 这 样 ， 图 7-13 序列 146 所 描述 
得 出 了 一 个 结构 元 素 序列 ， 每 个 大 小 都 是 3 x 3， 且 依次 应 用 该 序列 所 的 结构 元 素 
得 结果 与 应 用 图 7-11 中 的 核 所 得 的 结果 相同 。 


7A.2 形态 学 采样 定理 


现在 ， 来 谈 谈 采样 定理 ， 非 常 类 似 于 著名 的 香农 (Shannon) 采样 定理 。 不 同 的 是 我 们 将 
从 一 幅 已 经 采样 过 的 图 像 开始 ， 并 用 一 个 数字 网 格 (digital grid) 来 表示 该 图 像 ， 然 后 考虑 如 


(7-33 ) 


O WREE (进一步 ) 采样 为 更 小 的 网 格 。 


首先 定义 采样 网 格 (sampling grid)。 一 个 所 谓 的 采样 网 格 ， 是 一 幅 这 样 的 图 像 ， 其 前 景 

由 原始 图 像 上 每 一 个 要 被 采样 的 点 构成 。 任 何 一 种 见 过 的 网 格 都 可 以 ， 只 是 采样 网 格 还 必须 
满足 

S@®S=S (7-34) 

以 及 

S-$ (7-35) 

AX (7-34) 表明 了 这 样 一 个 性 质 ， 即 这 个 特定 的 5“ 在 膨胀 下 是 闭 LH 












8 HE | | | 1 

合 的 .” 一 种 常见 的 网 格 是 对 每 三 个 点 进行 一 次 采样 ， 如 图 7-14 所 示 。 — m 

那么 现在 ， 采 样 就 意味 着 读 取 并 记录 与 网 格 所 有 黑色 像素 位 置 对 AHHH 

应 的 图 像 值 。 现 在 假设 K 是 某 个 结构 元 素 。 这 里 提出 一 个 相当 简单 的 。 AA 
on NNi] 





重 构 (reconstruction) 算法 ， 基 本 思路 是 : 用 指定 的 采样 网 格 对 图 像 0123456789 
进行 采样 ， 然 后 ， 用 某 个 结构 元 素 K 进 行 膨 胀 。 那 么 问题 是 : 在 什么 图 7.14 对 每 二 个 点 进行 
条 件 下 ， 采 样 图 像 关 于 结构 元 素 K 的 膨胀 结果 仍 为 原始 图 像 》 对 此 ， 次 采样 的 表示 图 
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Florencio 和 Schafer[7.7] 指 出 需要 满足 如 下 性 质 : 首先 ， 采样 网 格 自身 关于 结构 元 素 膨胀 所 得 
结果 ， 必 须 是 整个 空间 : 


SOK-E (7-36) 
其 次 ，K 关 于 S 中 所 有 点 的 平移 构成 空间 的 一 个 分 区 
V((x,y) €S.x = y), K, N K, = Ø (7-37) 


并 且 开 必须 包含 原点 。 
这 里 有 一 个 结构 元 素 ， 可 令 上 文 给 出 的 采样 网 格 满足 这 三 个 条 件 : 





事实 上 ， 它 就 是 一 个 中 心 像素 (原点 ) 及 其 8 邻 域 ， 这 并 不 十 分 有 趣 。 但 它 的 确 满足 这 三 
个 条 件 。 

如 果 S 和 KK 满足 这 些 性 质 ， 则 定理 描述 如 下 : 令 F 为 某 图 像 ， 令 P 是 对 某 AC SUF, -AOK 
WERE WHA, HORE, =F, oK=F,- K 的 图 像 FF 的 集合 。 则 以 下 两 部 分 成 立 : 

部 分 A 按 8 中 的 点 ， 对 FEP 进 行 采 样 ， 对 完全 重 构 出 F 是 充分 且 必 要 的 。 

部 分 B” 按 5 中 的 点 ， 对 FEQ 进 行 采样 ， 对 重 构 出 具有 边界 误差 的 Ff 是 必要 的 ， 而 对 重 构 
出 最 大 误差 为 r(K) 的 Ff 是 充分 的 ， 其 中 x() 是 包含 了 K 的 最 小 环 的 半径 。 

关于 这 个 定理 ， 还 可 以 讨论 很 多 : 首先 ， 部 分 A 意味 着 什么 ”你 能 用 集合 符号 将 它 描述 出 
来 吗 ? 你 应 该 可 以 做 到 ， 但 你 可 能 会 认为 “如 果 它 所 意味 的 正 是 我 所 想 的 ， 那 太 微不足道 了 。 
好 的 ， 它 的 含义 是 : 如 果 取 8 中 的 某 些 点 的 集合 ， 并 关于 核 有 进行 膨胀 ， 能 够 生成 站， 则 我 们 
需要 记 住 的 是 S 中 的 哪些 点 是 必须 的 。 是 的 ， 在 某 种 意义 下 ， 这 的 确 很 微不足道 ， 不 是 吗 ? 但 
它 意味 深长 。 这 一 点 ， 在 讨论 耐 奎 斯 特 ( Nyquist) 率 时 会 有 所 体会 。 

现在 ， 来 理解 一 下 部 分 B: 蒙 斯 多 夫 (Houssdorf) 距离 是 对 两 幅 ( 子 ) 图 像 之 间 差 异 的 
度量 。 给 定 两 个 点 集 $={51,53,…,5,} T botn KML REAREN E 


dn(S, T)=max(h(S, T), h(T, S)) (7-38) 


其 中 A(S, T) = max, ming|s-:|. Bp, SSA BE DEA HN S5 OC 
素 的 最 小 距离 的 最 大 值 。 

部 分 B 说 的 是 ， 如 果 F 在 关于 K 的 开 运 算 下 是 闭合 的 ， 即 ， 如 果 F 在 关于 K 做 开 运算 后 再 关 
于 K 做 闭 运算 ，F 并 没有 发 生 改 变 ， 则 F 在 S 中 点 上 进行 采样 ， 对 几乎 精确 地 表示 出 F 是 充分 的 。 
这 里 “几乎 精确 ”的 含义 是 ， 采 样 点 的 集合 关于 K 膨 胀 后 ， 儿 乎 完全 等 价 于 初始 的 F。 

现在 来 看 一 个 例子 : 图 7-15 给 出 了 原始 图 像 r4,， 以 及 采用 5 采样 后 所 得 图 像 。 

由 于 已 知 我 们 只 能 获得 第 0、3、6、9% 行 或 列 的 数据 ， 因 此 在 对 图 像 降低 分 辩 率 时 ， 可 以 
丢掉 其 他 的 行 和 列 ， 从 而 得 到 一 幅 小 一 些 的 图 像 。 这 样 ， 在 图 7-16 的 左 侧 ， 得 到 了 一 个 对 原 
始 图 像 间隔 采 样 后 的 小 图 像 。 现 在 通过 膨胀 将 它 放 大 回来 : 将 K 放 在 每 个 采样 点 上 ， 能 够 得 到 
图 7-16 所 示 的 重 构 结果 。 它 看 起 来 并 不 是 非常 像 原始 的 未 被 采样 过 的 图 像 ， 对 不 对 ? (不 论 
“精确 重 构 ” 是 如 何 定义 的 ? ) 这 是 一 个 艰难 的 问题 。 以 上 定理 声称 能 够 通过 在 每 三 个 点 上 采 
样 一 次 来 重 构 一 个 信号 。 这 不 是 同 香农 定理 相 了 矛盾 吗 ? 香农 不 是 说 过 必须 总 是 每 隔 一 点 采样 
一 次 吗 ? (ERE, 香农 定理 是 针对 模拟 信号 而 曾 述 的 。 该 如 何 将 香农 定理 应 用 到 这 一 情 
况 ? 耐 奎 斯 特 率 究竟 是 什么 ?) 我 们 的 采样 定理 并 没有 说 可 以 重 构 出 任意 的 信号 ， 它 说 的 是 
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某 种 关于 频率 的 东西 ， 不 是 吗 ? (请 说 ， 是 的 。) 事实 上 ， 采 样 定理 基本 上 说 的 是 ， 一 个 在 某 
个 特定 频率 〈 与 网 格 间距 相同 ) 下 的 采样 网 格 不 能 够 用 于 存储 其 变化 多 于 半 个 网 格 间距 的 信 
息 。 在 形态 学 采样 中 ， 定 理 变 得 复杂 是 由 于 这 样 一 个 事实 ， 我 们 不 仅 可 以 选择 一 个 网 格 ， 还 
可 以 选择 一 个 核 。 定理 的 部 分 B 给 出 了 一 些 约束 人 信息。 除非 图 像 预先 经 由 K 进 行 “ 预 滤波 ” 
(prefiltered )， 否 则 K 无 法 令 它 复原 。 对 此 ，Haralick[7.12，p.252] 则 以 如 下 方式 叙述 : “形态 
学 采样 定理 不 能 实现 这 样 的 重 构 ， 它 要 求 其 定位 精度 要 高 于 重 构 结构 元 素 K 的 外 切 圆 的 半径 。” 
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图 7-15 a) 原始 图 像 b) 采用 图 7-14 中 的 S 对 图 7-16 间隔 采样 后 的 图 像 与 通过 膨胀 所 得 重 构图 像 。 注 
163 原始 图 像 采 样 后 的 结果 意图 7-15 中 的 原始 图 像 一 -该 图 像 属于 P 或 O13? 


7A.3 选择 结构 元 素 


通常 ， 我 们 选择 原点 在 中 心 的 ， 尺 寸 较 小 且 对 称 的 结构 元 素 。Schonfeld[7.34] 给 出 了 一 些 
建议 ， 但 一 般 情况 下 ， 这 些 建 议 也 仅 可 作为 指南 。 


TAA 边缘 及 曲面 上 的 缝隙 弥合 ” 


与 本 书 的 惯例 不 同 ， 本 节 中 的 算法 描述 要 稍微 详细 一 点 。 一 名 机 器 人 视觉 学 科 的 研究 生 
有 必要 学 会 如 何 写 出 一 篇 好 的 期 刊 论文 ， 而 这 一 章 的 写法 可 看 作 是 对 这 样 一 篇 论文 的 各 个 组 
成 部 分 的 示范 。 它 包括 引言 、 相 关 工 作 、 摘 述 并 解释 算法 的 主体 部 分 ， 以 及 解释 并 说 明 算 法 
与 其 他 已 发 表 算法 之 间 性 能 比较 的 结果 部 分 。 因 此 大 家 不 仅 应 该 阅读 本 章 的 技术 内 容 ， 而 且 
还 应 该 注意 文章 的 组 织 结构 。 
7A.4.4 引言 

EEH, KAERT. EE ( 见 第 8 章 )， 以 及 类 似 于 二 值 形态 学 运算 的 概念 ， 
解决 边缘 缝隙 弥合 (其 他 策略 可 参见 [7.16]) 问题 。 在 二 维 情况 下 ， 边 缘 是 一 条 曲线 ， 而 在 三 
维 情况 下 ， 则 是 一 个 曲面 。 我 们 知道 ， 任 何 边缘 算 子 都 必然 会 遇 到 失败 的 情况 ， 此 时 会 导致 
生成 额外 的 边缘 或 边缘 上 的 颖 孙 。 如 果 边 缘 上 有 了 经 陆 ， 则 连通 分 量 标号 程序 会 失败 ， 会 将 
内 点 和 外 点 标 成 相同 的 号 。 因此， 必须 要 找到 一 个 能 够 校正 这 种 边缘 检测 错误 的 方法 。 我 们 
把 这 些 方法 与 形态 学 运算 联系 起 来 。 在 [7.10] 中 , 提出 了 一 种 所 谓 的 基于 距离 变换 的 弥合 方法 ， 
并 在 二 维和 三 维 下 均 实现 了 这 一 方法 。 这 里 将 这 一 新 方法 与 二 值 形态 学 ( 掩 模 腐蚀 方法 [7.1]) 
和 和 迭代 并 行 细 化 方法 [7.44]、 三 维 并 行 细 化 技术 [7.42] 和 三 维 形态 学 方法 等 进行 了 比较 。 在 所 

ea] 有 情况 下 ， 该 方法 都 表现 出 了 更 优 的 性 能 ， 因 为 它 能 够 更 好 地 保留 尖锐 拐角 的 形状 。 


日 ”本 市 中 的 图 片 来 自 参 考 文献 [7.36]。 
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一 个 题 外 话 : 连通 分 量 标号 

第 8 章 介绍 了 一 种 所 谓 的 “连通 分 量 标号 ”(connected component labeling, CCL) 运算 。 
这 里 ， 很 快 就 要 使 用 连通 分 量 的 概念 。 如 果 还 没有 阅读 该 部 分 ， 请 首先 阅读 并 理解 第 8.3 节 ， 
然后 再 回 到 本 节 。 

问题 定义 

给 定 一 幅 边 缘 图 像 。 由 于 噪声 、 模 糊 或 其 他 误差 ， 真 实 图 像 经 边缘 检测 后 ， 边 缘 或 曲面 
上 有 了 时候 会 有 “缝隙 ”一 一 由 于 边缘 检测 器 的 反馈 不 够 强 而 无 法 得 到 肯定 的 判断 。( 请 参见 
Pratt[7.25， 第 17 节 ] 中 对 边缘 检测 误差 的 精彩 讨论 。) 有 多 种 形态 学 运算 可 用 来 弥合 这 样 的 乡 
险 。 这 里 给 出 的 算法 是 所 谓 的 “DT 驱动 的 弥合 方法 ”(DTdriven closing ) 


7A.4.2 距离 变换 

我 们 已 经 知道 ， 距 离 变换 D(x, y) 是 对 从 点 x, ?到 最 近 边 缘 点 (nearest edge point) 的 距离 
的 某 种 度量 [7.28，7.29，7.31，7.32]。 我 们 采用 了 一 种 特别 的 距离 变换 ， 称 之 为 切削 映射 
(使 用 模板 进行 距离 变换 的 方法 ),” 记 为 C(x, y)， 并 称 该 映射 的 值 为 “距离 变换 (DT) 距离.” 

同样 ， 可 以 把 距离 变换 的 概念 扩展 至 三 维 空间 。 变 换 D(x, y, z) 同 理 可 参数 化 为 g(x, y, 2), 
且 包 含 从 点 <x,y, z> 到 最 近 边缘 的 DT 距离 。 

距离 变换 可 用 于 辅助 度量 区 域 的 特性 : 通过 距离 变换 ， 可 以 得 到 在 每 一 点 上 ， 与 任何 一 
条 边缘 都 不 相交 的 最 大 的 核 的 尺寸 [7.35]。 

一 个 点 (x,y) 的 k 近 邻 可 在 二 维 或 三 维 空间 内 定义 为 : 

Ri, y= Gus ya? , Ou. yo) ss (Xim> Yem? } 
={ Gs Yo) }: 距 离 变换 距离 ( ET P (x, y) )-k 

在 二 维 情况 下 ，m=8k, k> 1, 而 在 三 维 情况 下 ，m=(2k+1) 一 (2k -1)°, 

在 我 们 的 早期 工作 [7.10] 中 ， 凡 是 对 应 用 了 基于 公式 (7-28) 的 掩 模 所 得 的 距离 变换 ， 都 
称 作 “ 切 前 映射 [7.2]"， 但 是 在 其 他 文献 中 [7.4，7.5，7.31]， 术 语 “ 切 前 ”(chamfer) 仅 限于 
基于 图 7-17 中 的 第 二 个 掩 模 的 距离 变换 。 不 过 二 者 都 能 满足 将 在 下 一 子 节 进 行 描述 的 边缘 弥 
合 方 法 。 























图 7-17 对 距离 的 两 种 定义 ， 二 者 均 可 用 于 计算 图 7-18 边缘 缝隙 附近 的 距离 变换 
距离 变换 。 位 于 右 侧 的 可 生成 切削 映射 ， 
非常 接近 欧 氏 距离 


为 了 建构 一 个 完整 的 距离 变换 ， 和 迭代 计算 公式 (7-28)， 直 至 两 步 迭 代 之 间 不 再 发 生变 化 
这 就 是 Bister 等 [7.3] 所 采用 的 方法 。 但 是 ， 对 于 这 里 讨论 的 应 用 ， 我 们 需要 设 定 某 种 关于 最 大 
缝隙 长 度 的 先 验 知识 ， 从 而 可 以 定义 一 个 值 K 来 反映 这 项 知识 。 天 将 代表 一 个 足够 大 的 距 
离 ， 以 致 于 使 得 距离 如 此 远 的 像素 决 不 可 能 是 边缘 的 一 部 分 。 一 般 情况 下 我 们 采用 值 K a <4, 


此 时 能 够 弥合 六 个 像素 大 小 的 缝隙。 图 7-18 给 出 了 一 个 关于 边缘 经 阶 附 近 的 距离 变换 的 例子 








a 
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可 采用 相 类 似 的 方式 生成 三 维 距离 变换 。 我 们 发 现 生 成 距离 变换 时 的 计算 复杂 度 与 图 像 
中 边缘 点 个 数 以 及 K。 的 大 小 成 正比 。 三 维 情况 下 ，KKws 增 大 时 ， 核 的 大 小 Ni 会 大 幅度 增 大 。 


7A.4.3 ”基于 连通 分 量 的 分 割 

到 某 一 条 边缘 的 距离 变换 的 距离 低 于 Ku 的 像素 被 标注 为 “TBA”(to be assigned, it 
值 )， 其 含义 是 ， 它 们 可 能 属于 某 一 条 边缘 。 余 下 的 像素 分 割 为 互 不 交叉 的 区 域 。 实 现 这 种 分 
割 的 一 种 简单 直接 的 方式 ， 是 对 未 标注 为 TBA 的 像素 进行 连通 分 量 分 析 。 不 过 ， 也 可 以 采用 
更 加 复杂 的 协同 处 理 过 程 ， 例 如 第 8 章 和 {7.141 中 所 描述 的 处 理 方 法 。 无 论 采用 何 种 方法 ， 都 
可 生成 一 幅 图 像 ， 比 如 将 在 第 8 章 中 讨论 的 标号 图 像 ， 其 中 L(x, yaa “Cx, y) 处 的 像素 属 
于 区 域 j.” 工 中 距离 边缘 较 近 的 像素 ， 标 注 为 边缘 的 潜在 部 分 : 

(DTG y) < K mx} > {L(x,y) = TBA} 


Bister 等 [7.3] 对 距离 变换 中 的 局 部 最 大 值 进行 辨识 ， 从 每 个 最 大 值 都 得 到 一 个 潜在 的 区 域 。 
但 是 ， 他 们 注意 到 ,“ 由 于 距离 变换 对 于 噪声 非常 敏感 ， 导 致 区域 边 界 很 不 规则 ， 因 此 一 个 四 
处 (cavity) (区域 ) 可 以 包含 多 个 十 分 接近 的 局 部 最 优 。 为 了 排除 假 的 最 大 值 ， 采 用 了 一 个 
滤波 器 来 融合 (merge) 这 些 最 优 值 ， 使 得 高 度 之 和 比 它们 之 间 的 几何 距离 要 大 得 多 。” 我 们 
推测 该 滤波 器 的 作用 与 我 们 选择 的 Ks。 相当。 只 是 我 们 没有 去 搜索 一 个 最 优 值 ， 而 是 采用 了 连 
通 分 量 (第 8 章 )。 这 两 种 方法 均 可 在 区 域 中 确定 一 个 范围 ， 这 个 范围 能 够 鲁 棱 地 表征 该 区 域 。 


7A.4.4 重 标号 未 赋值 点 

算法 的 最 后 一 步 是 重 标 号 (relabeling) 待 赋值 (TBA) A: 采用 距离 变换 DT(x, y) 和 标号 
图 像 L(x, y)， 生 成 一 个 新 的 标号 图 像 L'(x,y) 。 从 DT(x, y) > Kw 的 点 (与 边缘 的 距离 为 ,或 
者 更 远 的 点 的 集合 ) 开始 进行 ， 每 个 点 都 要 重 标 号 ， 并 用 该 点 附近 最 恰当 的 邻近 点 的 标号 来 
赋值 。 对 有 疑问 的 像素 ， 进 行 适 代 式 “腐蚀 "。 在 每 一 步 选 代 i 中 ， 标 号 图 像 L(x, y) 中 只 有 与 
DT, y)- K,.. - ; 鸥 像素 相 对 应 的 待 赋值 像素 ， 才 会 在 每 一 次 遍历 中 进行 重 标号 

TBA 像 素 仅 在 有 较 强 的 论据 (将 在 下 一 节 中 定义 ) 证 明 该 像素 应 赋值 为 某 个 区 域 时 ， 才 
进行 重 标号 。 如 果 无 法 确定 是 否 再 赋值 ， 则 该 像素 仍 表示 为 TBA 并 推迟 到 下 一 次 遍历 时 再 做 
决定 。 当 L(x, y) 中 所 有 与 距离 变换 距离 为 的 像素 相对 应 的 TBA 像 素 被 重新 赋值 为 一 个 合理 的 
图 像 区 域 后 ， 或 者 在 迭代 过 程 中 不 再 发 生变 化 时 ，K 减 1， 并 考虑 对 下 -一 个 TBA 集 合 进行 重 标 
号 。 当 所 有 边缘 像素 (k-0) 都 被 赋值 为 合理 的 图 像 区 域 时 ， 重 标号 过 程 结束 。 如 果 要 求 区 域 
之 间 的 分 辩 率 为 单 像素 分 辩 率 ， 则 应 采用 更 复杂 的 区 域 规范 化 方法 [7.8]。 

颖 陵 弥 合 的 关键 在 于 ， 用 什么 策略 选择 最 合理 的 区 域 ， 为 当前 像素 L(x, y) 重 新 赋值 ， 在 一 
维 空间 内 ， 为 了 达到 这 一 点 ， 应 检验 该 像素 周围 的 八 个 邻 域 。 在 三 维 空间 ， 则 应 检验 该 体 素 
的 26 个 邻 域 。 我 们 称 之 为 搜索 像素 或 体 素 的 “最 佳 邻 域 "。 

像素 四 周 的 邻近 像素 属于 如 下 三 种 可 能 的 类 中 的 某 一 类 ， 这 取决 于 在 当前 一 步 迭代 中 ， 
是 如 何 对 这 些 邻 近 像素 进行 标号 的 

1) 对 应 于 标号 图 像 L(x, 仿 中 的 某 个 对 象 或 某 个 对 象 的 某 个 区 域 的 标号 。 

2) 对 应 于 图 像 背景 的 标号 。 

3) TBA 标 号 

若 要 将 当前 像素 重 标号 至 前 两 类 中 的 某 一 类 ， 可 以 首先 简单 地 计数 有 多 少 个 邻近 像素 属 
于 这 些 类 ， 然 后 选择 计数 结果 最 大 的 类 作为 “最 优 ” 类 ， 从 而 对 当前 像素 进行 重 标号 。 这 种 
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策略 在 所 有 邻 域 都 是 TBA 时 会 失败 ， 或 是 由 于 在 重 标号 算法 中 引入 的 约束 ( 见 下 一 段 )， 不 希 
望 将 该 像素 的 重新 赋值 与 看 上 去 是 它 的 最 优 邻 域 相 同 。 

在 重 标号 算法 中 的 一 个 约束 ， 是 针对 选择 背景 区 域 作 为 最 佳 邻 域 的 。 相 比 于 属于 前 景区 
域 的 邻 域 像素 ， 我 们 以 更 加 严格 的 方式 来 考虑 属于 背景 的 邻 域 像素 。 背 景 像 素 必 须 与 当前 考 
虐 的 像素 直接 相连 时 ， 才 会 选取 背景 值 为 最 佳 邻 域 。 这 一 点 可 以 避免 造成 有 时 候 会 在 一 个 封 
闭 边界 内 找到 孤立 的 背景 像素 这 样 一 种 不 合宜 的 结果 。( 请 参见 [7.30] 中 更 多 关于 这 种 连通 性 
的 反常 性 (paradox) 的 讨论 。) 

当 k=0 时 ， 为 了 进行 重 标 号 而 搜索 的 TBA 像 素 ,或 者 是 实际 边缘 或 者 是 噪声 像素 。 根 据 
定义 ， 图 像 中 的 一 条 边缘 ， 代 表 一 个 对 象 区 域 与 图 像 中 另外 某 个 区 域 之 间 的 分 界 。 这 另 一 
个 区 域 可 能 是 另 一 个 对 象 区 域 ， 也 可 能 是 背景 。 选 择 一 个 边缘 像素 并 重 标号 为 图 像 区 域 的 
: 一 部 分 时 ， 没 有 考虑 计数 结果 。 只 在 边缘 像素 的 周围 全 部 是 背景 的 情况 下 ， 选 择 背 景 为 最 
佳 邻 域 。 

重 标 号 算法 ”三 维 数据 

/* 在 这 个 函数 例子 中 ， 我 们 省 略 了 若干 的 细节 ， 例 如 变量 定义 。 不 过 ， 这 个 例子 还 是 抓 住 了 算法 的 本 质 */ 

I EMAER LERA e 


for(frame = 0; frame < numberframes; frame+-+) 


for(row = 0; row < numberrows; row++) 
for(col = 0; col < numbercols; col++) { 
if(DT[frame] [row] [col] >= Kmax) 
Lprime[frame] [row] [col] = L[{frame] [row] [col]; 
else if (DT[frame] [row] [col] == 0) 
Lprime[frame] [row] [col] = EDGE; 
else Lprime[{frame] [row] [col] = TBA; 
} 


for(k = Kmax-1; k > 0;k--)( 
changing = TRUE; 
while(changing == TRUE) { 
changing = FALSE; 
for(frame = 0; frame < numberframes; frame++) 
for(row = 0; row < numberrows; row++) 
for(col = 0; col < numbercols; col++){ 
if(((L[frame] [row] [col] == TBA) 
l| (L[ frame] [row] [col] == EDGE) ) 
&& (DT [frame] [row] [col] >= k)) { 
Lprime [frame] [row] [col] = 
Best26Neighbor (frame, row,col); 
changing = TRUE; 
} 
else Lprime[{frame] [row] [col] = 
L{frame] [row] {col}; 
) /* 结束 对 帧 、 行 、 列 的 循环 */ 
copyarray(Ltemp, Lprime); /* 将 整个 数组 Lprime 复制 到 Ltemp */ 
copyarray(Lprime, L); m 
copyarray(L, Ltemp); 
) /* 结束 while */ 
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) /* 结束 for k */ 
) /* 结束 relabel */ 


/* 在 该 函数 中 ，P 和 n 是 含有 帧 、 行 和 列 的 数据 结构 */ 
/* 一 个 体 元 素 的 坐标 */ 
int Best26Neighbor (p) 


{ 
while ((n = neighbor(p)) != NULL) 
{ 
if (L(n) != EDGE) 
{ 
if(L(n) != BACKGROUND) Card[L(n)]++; 
else if (faceconnected(n,p)) Card[BACKGROUND]++; 
} 
} 
if ((maximum(Card) == BACKGROUND) && (L(n) == EDGE) ) 


return NextMax (Card) ; 
else return maximum (Card); 
) /* 结束 Best26Neighbor */ 
在 这 个 算法 中 ,“Card” 就 是 一 个 数组 ， 它 维护 的 是 对 一 个 特定 的 标号 与 所 感 兴趣 的 体 元 
素 之 间 相 邻 次 数 的 计数 结果 (cardinality ) 。 


7A.4.5 例子 
本 节 将 为 上 文 所 描述 的 方法 提供 竞争 形态 学 策略 。 
紧密 相 邻 的 区 域 


某 个 边缘 检测 程序 的 输出 结果 如 图 7-19 所 示 。 注 意 边 缘 上 有 一 个 很 典型 的 缝隙 ， 其 大 小 
大 于 两 个 区 域 之 间 的 间隔 。 将 距离 变换 应 用 至 该 边缘 图 像 ， 距 离 变 换 以 及 连通 分 量 标号 的 结 
果 如 图 7-20 所 示 。 而 图 7-21 显 示 的 是 由 基于 距离 变换 的 弥合 算法 得 到 的 分 割 结果 。 
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图 7-19 边界 上 有 和 较 大 缝隙 的 两 个 区 域 。 图 7-20 距离 变换 以 及 对 图 7-19 
摘自 [7.36]。 已 获得 使 用 许可 所 得 结果 。 摘 自 [7.36]。 已 获得 使 用 许可 
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图 7-21 应 用 DT 驱动 的 封闭 算法 所 得 分 割 结果 。 注 意 这 里 正确 地 划分 了 区 域 ， 
划分 精度 准确 到 了 单位 像素 。 摘自 [7.36]。 已 获得 使 用 许可 




















其 他 的 二 维 图 像 

对 一 幅 包 含 若干 餐具 对 象 ( 刀 又 与 汤匙 ) 的 二 值 图 像 进行 处 理 。 图 7-22~ 图 7-24 给 出 了 对 
该 输入 图 像 处 理 后 得 到 的 结果 ， 按 次 序 分 别 表示 : a) 原始 图 像 ; b) 距离 变换 本 身 ; c)“ 加 
粗 后 的 边缘 图 像 *， 包 括 所 有 满足 C(x, y)<K,, 从 而 在 初始 时 重 标号 为 TBA 的 像素 ; d) 对 加 粗 [169] 
后 的 边缘 图 像 进行 标号 所 得 图 像 ; e) 基于 距离 变换 与 标号 图 像 所 得 的 重 标号 图 像 。 


== 
E 
和 





a) b) c) d) 
图 7-22 a) JRA, 102 HAER 图 7-23 c) 加 粗 后 的 边缘 图 像 。 d) 对 膨胀 后 所 得 边 
b) 原始 餐具 图 像 的 距离 变换 。 缘 的 标号 图 像 。 摘 自 [7.36]， 已 获得 使 用 许可 


摘自 [7.36]， 已 获得 使 用 许可 
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图 7-24 e) 重 标号 后 的 餐具 图 像 。 摘 自 [7.36]， 已 获得 使 用 许可 


7A.4.6 与 已 发 表 的 二 维 方 法 之 间 的 比较 

为 了 评估 DT 驱动 边缘 弥合 方法 对 二 维 图 像 的 处 理性 能 ， 将 该 方法 与 另外 两 类 二 值 细 化 方 
法 一 一 夫 代 式 腐 蚀 以 及 迭代 式 细 化 ， 进 行 了 比较 。 这 里 选用 一 幅 题 为 “餐具 ”的 位 图 作为 以 
上 几 类 算法 的 输入 。 图 7-22 中 给 出 了 该 图 关于 5 x 5 的 核 膨 胀 后 所 得 结果 ， 该 运算 旨 在 对 图 中 
所 有 缝隙 进行 封闭 。 基 本 思路 是 : 首先 使 用 膨胀 运算 以 弥合 边界 颖 职 ;， 然后 使 用 细 化 技术 使 
得 “ 粗 的 ”边界 变 为 “ 细 的 ”边界 。 比 较 结 果 将 在 下 一 节 进 行 描 述 。 

需要 注意 的 是 ， 尽 管 细 化 过 程 和 骨架 化 过 程 所 完成 的 运算 非常 类 似 ， 但 是 细 化 能 够 保留 
边缘 的 连通 性 ， 而 骨架 化 则 不 能 。 根据 形 态 学 运算 ， 可 以 对 骨架 进行 如 下 定义 。 

结构 元 素 A 的 第 K 阶 同位 homothetic， 是 将 当前 所 关心 的 算 子 (这 里 是 膨胀 ) 应 用 到 A (Atk 
译 者 注 ) 后 所 得 结果 ， 记 为 K4。 即 ， 采 用 结构 元 素 4 对 {0} 进 行 膨 胀 ， 接 着 再 次 采用 4 对 所 得 
结果 进行 膨胀 ， 直 至 完成 k 次 这 样 的 膨胀 为 止 。 

有 一 种 常规 的 形态 学 骨架 化 方法 ， 是 将 图 像 分 解 为 多 个 骨架 子 集 5; ， 例 如 对 图 像 X， 有 





. S, = (XOIA) \ [(X@iA)o(A)] (7-39) 
其 中 ，X7 和 代表 所 有 属于 X 而 不 属于 了 的 元 素 。 此 时 可 由 如 下 公式 来 构造 骨架 (skeleton): 
Skeleton = Us, @iA (7-40) 


上 述 各 个 子 集中 包含 了 关于 尺寸 、 方 向 和 连通 性 的 信息 。 最 小 骨架 具有 能 够 精确 重 构 出 原始 
图 像 的 性 质 , 但 它 并 不 必然 保留 路 径 或 曲面 的 连通 性 [7.20]。 另 一 种 可 选 的 形态 学 骨架 化 方法 ， 
是 形态 学 形状 分 解 方法 (morphological shape decomposition, MSD), 这 里 没有 予以 考虑 。 
Reinhardt 和 Higgins[7.27] 对 MSD 和 形态 学 骨架 化 方法 进行 了 比较 ， 他 们 的 结论 认为 MSD 的 性 
能 稍微 高 一 些 。 尽 管 形态 学 骨架 化 能 够 用 于 许多 应 用 (例如 图 像 编 码 ) 且 被 广泛 地 研究 ， 但 
相 比 可 保留 连通 性 的 2 维 或 3 维 细 化 方法 ， 仍 不 具备 直接 可 比 性 。 由 于 在 边缘 /曲面 缝隙 弥合 能 
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应 用 中 ， 我 们 坚持 要 求 保留 连通 性 ， 因 此 下 面 仅仅 考虑 了 有 具备 这 项 特性 的 后 一 类 方法 。 
形态 学 二 维 细 化 方法 
Arcelli 等 [7.1] 采 用 一 个 掩 模 序列 来 实现 细 化 。 原 始 图 像 经 由 八 个 3 x 3 掩 模 顺 序 进 行 腐蚀 ， 

其 中 每 一 步 所 得 结果 图 像 都 作为 下 一 步 迭 代 的 输入 ， 直 至 所 有 可 能 的 像素 都 被 腐蚀 过 。 图 

7-25[7.1，7.26] 中 所 示 每 个 掩 模 中 ， 标 注 为 黑色 的 位 置 代 表 边 缘 像 素 ， 而 白色 代表 和 背景 像素 ， 

和 斜 线 区 域 则 代表 计算 中 不 用 考虑 进去 的 像素 。 如 果 一 个 掩 模 的 中 心 点 落 在 像素 (kX, D) 上， 而 所 

有 被 掩 模 覆 盖 的 图 像 像 素 中 ， 边 缘 以 及 背景 像素 的 分 布 模式 ， 与 相应 掩 模 的 模式 相同 ， 则 称 

该 掩 模 在 坐标 (k, /上 “匹配 ”该 图 像 。 如 果 一 个 掩 模 在 一 个 特定 边缘 点 上 匹配 一 幅 图 像 ， 则 

该 点 处 的 图 像 边缘 重新 设置 为 背景 。 按 如 下 次 序 应 用 掩 模 : Al, Bl, A2, B2, A3, B3, A4, 

B4。 采 用 该 算法 对 图 7-23 进 行 细 化 后 的 结果 见 图 7-25。 请 注意 该 算法 使 一 些 尖锐 顶点 (如 又 


TUA) 的 形状 发 生 了 变形 。 


i FE oO 
E E SF 
WINN WIENS NM 1L] SS 
Al A2 A3 A4 = ecc 
图 7-25 3x 3 掩 模 ( 左 图 ) 以 及 餐具 图 像 腐 蚀 细 化 后 图 7-26 迭代 式 细 化 后 的 结果 。 摘 自 [7.36]， 


CEN O NEN || | 
INNN LN 
Bl B2 B3 B4 
的 结果 (〈 右 图 )。 摘 自 [7.36]， 已 获得 使 用 许可 已 获得 使 用 许可 


A 


和 迭代 式 二 维 细 化 

Zhang 和 Suen 的 二 值 图 像 细 化 算法 [7.44] 对 图 像 进行 迭代 遍历 ， 以 确定 是 否 有 轮廓 点 可 以 
删除 。 所 谓 轮廓 点 ， 是 这 样 一 个 边缘 像素 ， 其 8 邻 域 中 至 少 有 一 个 像素 是 背景 像素 。 每 一 步 达 
代 都 包含 两 次 遍历 ， 且 在 每 一 步 迭 代 中 ， 确 定 是 否 删 除 一 个 像素 取决 于 像素 邻 域 中 边缘 点 的 ”[174 
数量 、 一 个 序列 中 该 像素 四 周 发 生 0-1 转 换 的 次 数 以 及 描述 邻 域 中 背景 构成 的 两 个 点 集 。 膨 胀 
后 的 餐具 图 像 (图 7-23) 经 由 迭代 式 细 化 后 的 结果 如 图 7-26 所 示 。 有 趣 的 是 ， 该 方法 与 Arcelli 
等 的 方法 非常 相似 。 
7A.4.7 三 维 图 像 

将 DT 驱动 的 弥合 算法 应 用 于 一 幅 三 维 图 像 ， 所 得 结果 如 图 7-27~ 图 7-29 所 示 ， 图 中 是 一 个 
内 部 隔 板 断 裂 的 方 盒 。 结 果 图 像 显示 的 次 序 与 显示 二 维 例子 结果 的 次 序 相同 (请 参考 图 7-22~ 
图 7-24 的 含义 一 一 译 者 注 )。 请 注意 ， 尽 管 +, y 方 向 上 的 缝 阶 都 很 大 ， 但 算法 成 功 地 弥合 了 这 些 
缝 险 ， 且 在 最 终 的 重 标号 图 像 中 仍 保持 了 边缘 锐利 。 

三 维 算法 也 在 合成 的 虚拟 椭 球 体 上 (图 7-30) 进行 了 测试 ， 该 图 因 有 意 的 欠 采 样 而 生成 
了 较 大 的 乡 阶 。 令 KR, 值 为 ?3， 应 用 DT 驱动 弥合 算法 ， 所 得 结果 如 图 7-30 所 示 。 
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a) b) c) d) 


[87-27 a) 原始 的 断裂 方 盒 图 像 ， 第 20 ”图 7-28 c) 加 粗 后 的 边缘 图 像 d) 图 7-29 e) 重 标注 后 的 断裂 
帧 b) 断裂 方 盒 图 像 的 距离 变换 HHA IT a EPR 方 盒 图 像 








e) 





a) b) 


图 7-30 有 缝隙 的 椭 球 体 a) 以 及 重 标 注 后 的 椭 球 体 b) 


7A.4.8 与 已 发 表 的 三 维 方法 之 间 的 比较 

其 他 关于 三 维 细 化 与 骨架 化 方法 的 研究 [7.11，7.19，7.41，7.42] 主 要 是 以 计算 每 个 三 维 
实体 的 欧 拉 连 通 数 和 N 为 基础 [7.13]，N=V 一 E+ ， 这 里 V、E 和 分 别 代 表 顶 点 个 数 、 边 缘 个 数 
以 及 对 象 的 面 片 个 数 。 当 一 个 实体 不 包含 隧道 (tunnels ) RAZR (cavity) 时 ，N=2。 每 有 
一 个 隧道 或 洞 (hole) 穿 过 对 象 时 ，N 减 2， 对 象 中 每 有 一 个 空 闪 ，N 加 2。 在 细 化 过 程 中 ， 必 
须要 保持 连通 数 不 变 ， 以 保留 原始 对 象 的 拓扑 结构 [7.26，7.33]。 

三 维 细 化 

我 们 对 DT 驱动 的 细 化 方法 与 Tsao 和 Fu[7.42] 所 描述 的 拓扑 三 维 细 化 算法 进行 了 比较 ,后 
者 能 够 保留 路 径 和 曲面 的 连通 性 。 如 果 能 够 保留 曲面 连通 性 ， 则 路 径 连 通 性 或 连通 数 也 能 够 
保留 。 将 该 算法 应 用 于 一 个 3 x 3 x 3 立方 体 的 中 心 体 元 素 ， 
在 六 步子 迭代 一 一 N (orth), S (outh), E (ast), W (est), 
U (p) ARD (own) 中 的 每 一 步 迭 代 中 ， 如 果 相 应 N、S、 
E、W、U 或 D 邻 域 为 零 ， 则 将 它 划分 为 一 个 边界 点 。 如 果 
删除 一 个 体 元 素 既 不 改变 3 x 3 x 3 窗口 中 剩余 体 元 素 的 连通 
性 ， 又 不 改变 两 个 “ 校 验 平面 ”内 的 连通 性 ， 则 该 体 元 素 
可 删除 。 采 用 Tsao 和 Eu 的 算法 对 加 粗 后 的 边缘 图 像 一 一 图 
7-28c 细 化 后 所 得 结果 如 图 7-31 所 示 。 

对 图 7-30 中 的 椭 球 体 ， 仍 采用 5 x 5 x 5 的 核 进行 膨胀 以 弥合 颖 阶 (图 7-32a) ， 然 后 应 用 
Tsao 和 Fu 的 算法 细 化 后 的 结果 如 图 7-32b 所 示 。 图 中 顶部 由 于 受 了 邻近 平面 的 量化 影响 ， 而 生 

成 了 额外 的 线条 。 


图 7-31 对 膨胀 后 的 方 盒 经 由 Tsao 和 
Fu 方法 细 化 后 所 得 结果 





Oo 


a) b) 
图 7-32 a) 膨胀 后 的 椭 球 体 b) 采用 Tsao 和 Fu 算法 细 化 后 的 椭 球 体 。 摘 自 [7.36]。 已 获得 使 用 许可 


7A.4.9 保留 几何 形状 

在 DT 驱动 弥合 算法 的 性 能 中 最 重要 的 一 点 ， 大 概 就 是 能 够 保留 曲面 几何 形状 的 能 力 ， 尤 
其 是 顶点 附近 的 几何 形状 。 该 算法 对 二 维 图 像 的 处 理性 能 已 在 图 7-24 中 给 出 了 非常 好 的 范例 。 
为 了 演示 该 算法 是 如 何 处 理 三 维 顶 点 几何 形状 的 ， 我 们 合成 了 一 个 圆锥 ， 并 采用 一 种 三 维 边 
缘 检测 器 抽取 出 它 的 表面 。 


a) b) 


图 7-33 a) 对 圆锥 完成 基于 DT 的 弥合 方法 处 理 后 所 得 穿 过 圆锥 顶点 的 一 个 横 截 面 
b) 采用 Tsao-Fu 算 法 细 化 后 的 结果 。 摘 自 [7.36]， 已 获得 使 用 许可 


然后 采用 DT 驱动 弥合 算法 来 弥合 表面 上 的 缝隙 。 采 用 传统 膨胀 算法 对 同样 的 圆锥 曲面 进 
行 乡 孙 弥合 ， 然 后 采用 Tsao-Fu 算 法 来 细 化 。 所 得 结果 如 图 7-33 所 示 。 由 于 膨胀 处 理 结果 替代 
了 原始 边缘 信息 ， 因 此 采用 Tsao-Fu 算 法 对 膨胀 后 的 图 像 进行 细 化 时 ， 对 初始 表面 没有 任何 
“记忆 ”。 当 然 ， 二 者 都 不 能 完美 地 处 理 几何 形状 。 然 而 ， 由 于 DT 驱动 弥合 算法 能 够 通过 DT 来 
保留 关于 原始 的 、 未 膨胀 前 的 几何 形状 的 “记忆 ”， 因 此 该 算法 能 更 好 地 在 弥合 缝隙 后 恢复 出 
原始 几何 形状 。 更 多 有 关 细 节 以 及 计算 速度 的 描述 见 [7.38]。 


7A.4.10 为 什么 写 这 一 节 

为 什么 我 们 在 这 一 节 以 如 此 宛 长 的 篇 幅 介绍 DT 驱动 边缘 弥合 算法 》 有 若干 个 原因 : 第 一 ， 
实现 任何 一 种 实际 技术 都 要 求 对 多 种 相关 技术 有 一 定 的 了 解 ， 这 是 非常 重要 的 。 你 们 肯定 会 
用 得 到 连通 分 量 、 边 缘 检 测 、 形 态 学 膨胀 等 知识 。 第 二 ， 由 于 本 书 主要 面向 研究 生 ， 我 们 希 
望 学 生 能 够 从 这 里 了 解 到 应 该 如 何 去 写 一 篇 期 刊 论文 。 本 章 在 许多 方面 与 [7.38] 非 常 相似 
( 且 包 含 了 很 多 从 该 文献 搞 录 的 图 )。 请 注意 格式 : 介绍 问题 ， 描 述 算法 ， 引 证 文献 ， 以 及 最 
重要 的 : 对 新 的 技术 与 现 有 技术 进行 比较 。 只 要 遵循 以 上 的 简单 规则 ， 那 么 你 也 可 以 发 表 论 
文 了 ! 








136 | E7* 





7A.5 术语 . 
切削 上 映射 chamfer map 
素 因子 prime factor 
采样 Sampling 
作业 7.A1 


在 第 7A.1.1 节 ， 给 出 了 分 解 结构 元 素 的 一 个 例子 。 请 证 明 这 个 分 解 所 给 出 的 结果 与 对 图 像 
{(0,0)} 关 于 原始 结构 元 素 进行 膨胀 后 的 结果 相同 。 


作业 7.A2 


细 化 算法 的 输出 结果 与 距离 变换 的 最 大 值 之 间 的 主要 区 别 是 什么 ?从 下 列 选项 中 选择 最 
佳 答 案 。 

a) 细 化 算法 保留 连通 性 。 距 离 变换 的 最 大 值 不 必然 是 连通 的 。 

b) 距离 变换 的 最 大 值 是 唯一 的 ， 而 细 化 算法 生成 的 结果 不 唯一 。 

c) 距离 变换 保留 连通 性 。 细 化 算法 不 保留 。 

d) 细 化 算法 能 够 生成 亮度 对 称 轴 。 上 距离 变换 则 不 能 。 


作业 7.A3 
采用 距离 变换 来 计算 一 幅 图 像 的 中 轴线 。 具 体 图 像 将 由 教师 在 课堂 中 给 出 。 
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第 8 章 分 Fl 


Galia est omnes divisa in partes tres. 
à Julius Caesar 


分 割 是 从 背景 中 将 目标 分 离 出 来 的 过 程 ， 它 是 所 有 后 续 过 程 ， 例 如 形状 分 析 、 目 标识 别 
等 的 基本 模块 。 本 章 首先 讨论 若干 常用 分 割 算法 ， 包 括 基于 冰 值 的 算法 、 基 于 区 域 的 算法 
(或 者 叫 连通 分 量 分 析 算 法 )、 基 于 边缘 的 算法 、 基 于 曲面 的 算法 。 在 本 章 “ 专 题 ” 中 ， 还 介 
绍 了 一 些 最 新 的 分 割 算 法 。 





8.1 划分 图 像 
在 许多 机 器 视觉 的 应 用 中 ， 场 景 中 可 能 出 现 的 物体 集合 是 非常 有 限 的 。 例 如 ， 如 果 摄 像 机 
正在 察看 一 个 传送 带 ， 传 送 带 上 可 能 只 出 现 一 种 类 型 的 零件 ， E . 
此 时 的 视觉 任务 就 可 能 是 确定 零件 的 位 置 和 方向 。 在 其 他 应 用 ¥ 
中 ， 所 察看 到 的 零件 可 能 是 若干 零件 类 型 中 的 一 种 ， 此 时 视觉 i 
任务 不 仅 要 识别 类 型 还 要 定位 每 个 零件 。 最 后 ， 摄 像 机 也 可 用 o = 


于 检验 零件 ， 以 便 进 行 质量 管理 。 
在 本 节 中 假定 零件 非常 简单 ， 从 而 用 单 目 摄像 机 提供 的 二 
维 投影 即 可 表现 出 其 特征 。 此 外 ， 还 假定 形状 本 身 足 以 刻画 这 


图 8-1 具有 两 个 前 景区 域 的 图 像 


些 目标 的 特征 ， 即 不 需要 颜色 或 者 亮度 变化 信息 。 首 先 考虑 将 Mea 
图 像 划分 为 几 个 连通 区 域 的 情况 。 ian pan 
对 图 像 的 一 种 分 割 结果 是 将 它 划 分 为 几 个 连通 区 域 ， 其 中 nimm 


每 个 区 域 在 某 种 意义 上 都 是 均匀 的 ， 且 由 一 个 唯一 的 标号 来 标 ty 
识 。 例 如 ， 图 8-2 是 一 幅 “ 标 号 图 像 ”(1abel image)， 区 域 1 被 
确定 为 背景 。 尽管 区域 4 也 是 背景 ， 但 由 于 它 与 区 域 1 之 间 不 连 
通 ， 因 此 被 标注 为 一 个 单独 的 区 域 。 

“均匀 ”一 词 值得 讨论 。 它 的 含义 可 以 是 所 有 像素 的 亮度 相同 ， 但 是 对 于 大 多 数 实际 应 用 
而 言 ， 这 个 标准 过 强 。 它 的 含义 也 可 以 是 所 有 像素 的 亮度 接近 于 某 个 代表 (平均 ) 值 .更 加 
形式 化 的 描述 [8.80] 是 ， 如 果 一 个 区 域 的 亮度 值 分 布 服从 于 一 个 特定 的 概率 分 布 ， 则 说 这 个 区 
域 是 均匀 的 〔 也 可 参考 [8.44] 中 的 分 析 )。 在 距离 图 像 [8.35] 中 ， 我 们 可 以 用 一 个 方程 来 描述 曲 
面 ， 此 时 如 果 一 个 区 域 可 以 用 结合 该 方程 的 某 个 概率 退化 模型 来 描述 ， 则 可 以 说 这 个 区 域 是 
均匀 的 。 例 如 ， 如 果 一 幅 距 离 图 像 的 一 个 区 域 中 所 有 点 ， 除 了 偏离 点 (deviation) 之 外 均 位 
于 同一 个 平面 ， 而 偏离 点 又 可 以 由 一 个 特定 的 高 斯 分 布 来 描述 ， 此 时 可 以 说 该 区 域 是 均匀 的 。 

实现 分 割 的 方式 有 很 多 种 。 基 于 阔 值 的 技术 可 以 保证 将 图 像 分 割 为 闭合 区 域 ， 因 为 这 种 
技术 仅仅 将 所 有 高 于 (或 者 低 于 ， 取 决 于 具体 问题 ， 某 个 特定 阔 值 的 像素 指定 为 同一 个 区 域 。 
基于 边缘 的 技术 假定 区 域 之 间 可 由 一 个 相 邻 的 边缘 强度 高 的 区 域 来 隔离 。 基 于 区 域 的 方法 从 
单元 (如 ， 均 匀 的 ) 区 域 开始 ， 对 它们 进行 分 裂 或 归并 (split or merge)。 于 是 ， 又 有 多 种 混 


图 8-2 对 图 8-1 所 示 图 像 的 一 种 
分 割 及 标号 结果 
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合 方法 ， 其 中 包括 分 水 岭 (watershed) [8.5] 方 法 。 分 水 岭 方法 通常 对 图 像 的 梯度 进行 运算 ; 
分 割 过 程 就 是 在 图 像 中 进行 洪 泛 (flooding )， 在 洪 泛 过 程 中 ， 嘉 立 的 区 域 边 界 (高 边缘 强度 
KR) 会 阻止 从 不 同 种 子 点 (seed point) 出 发 的 水 混合 在 一 起 。 传 统 的 “区 域 增长 ”方法 其 
实 是 分 水 岭 方 法 的 一 种 变种 [8.1]。 

在 进一步 讨论 有 关 分 割 的 论题 与 技术 之 前 ， 需 要 了 解 在 处 理 数 字 图 像 时 会 遇 到 的 一 些 有 
关 几 何 学 和 拓扑 的 有 趣 和 意料 之 外 的 问题 。 在 第 4.5 节 中 ， 我们 讨论 了 有 关连 通 性 的 自 相 了 予 
盾 的 论点 。 我 们 发 现 一 个 物体 可 以 有 一 个 闭合 边界 但 仍 可 以 具有 连通 的 内 界 与 外 界 。 还 有 另 
一 个 例子 ， 就 是 如 何 估计 一 个 区 域 的 周 长 的 问题 ， 或 者 说 是 一 个 如 何 按 它 的 采样 表示 估计 一 
条 线 的 长 度 的 问题 。 这 个 问题 在 图 像 分 割 中 有 直接 的 应 用 ， 但 仍 不 清楚 如 何 去 进 行 估计 
[8.31]。 由 于 本 章 下 面 还 要 继续 讨论 许 许 多 多 有 关连 通 性 的 话题 ， 以 上 这 些 问 题 都 是 很 可 能 
会 遇 到 的 。 


8.2 阅 值 化 分 割 


在 一 些 应 用 中 ,区域 的 具体 灰 度 值 并 不 重要 ， 此 时 就 可 以 通过 选择 亮度 的 阔 值 ， 将 一 幅 
图 像 分 割 为 “对 象 ” 和 “背景 "。 定 义 亮度 高 于 闪 值 的 任意 一 个 区 域 为 对 和 象 ， 而 低 于 阔 值 的 区 
域 为 背景 。 

选择 阔 值 的 方式 有 很 多 种 ， 从 极 简单 到 非常 复杂 。 随 着 方法 复杂 性 的 增加 ， 性 能 会 随 之 
提高 ， 但 付出 的 代价 是 计算 复杂 度 也 会 同时 增加 。 

需要 注意 的 最 重要 的 因素 大 概 是 阔 值 化 的 局 部 特性 ， 即 很 难 有 单个 阔 值 适用 于 整个 场景。 
而 一 般 都 是 对 象 与 背景 之 间 的 局 部 对 比 度 ， 包 含 了 重要 信息 。 由 于 摄像 机 的 敏感 度 受 了 如 图 
8-3 所 示 的 抛物 线 畸 变 和 /或 格 量 ( vignetting ) 的 影响 ， 从 图 像 中 心 到 边缘 逐步 下 降 ， 因 此 试 
图 建立 一 个 全 局 效 值 通常 是 无 益 的。 这 类 效果 的 显著 例子 可 从 直线 栅 格 图 像 中 看 出 , “均匀 的 ” 
白光 在 其 表面 上 发 生 了 巨大 的 变化 。 


TT 





图 8-3 两 个 探测 器 组 成 的 一 幅 直 线 栅 格 图 像 。 光 源 是 均匀 的 ， 但是， 图 像 显示 出 了 两 种 不 同 的 畸变 :辐射 
HE (亮度 ) 畸变 ( 左 图 中 右 侧 中 心 位 置 的 亮度 较 高 ， 而 右 图 中 中 心 位 置 的 亮度 较 高 ) 与 几何 畸变 
(直线 以 典型 的 正 畸 变形 式 焉 曲 ) 


类 似 抛 物 线 畸 变 与 格 量 的 效果 是 可 预测 的 且 是 易于 校正 的 。 事 实 上 ， 现 有 的 (off-the- 
shelf) 硬件 刚好 可 用 于 这 样 的 应 用 中 。 不 过 ， 对 于 非 均 匀 的 环境 光照 ， 例 如 从 窗口 射 人 的 阳 
光 在 一 天 时 间 内 会 发 生根 本 的 变化 ， 所 产生 的 影响 是 更 加 难以 进行 预测 并 校正 的 。 

由 于 单个 阔 值 不 能 提供 足够 的 性 能 ， 因 此 必须 选择 局 部 阔 值 。 最 常用 的 方法 就 是 所 谓 的 
分 块 阅 值 化 (block thresholding) 方法 ， 这 种 方法 将 图 像 划 分 为 矩形 块 并 为 不 同 的 矩形 块 采用 
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AARRE. 512 x 512 图 像 中 采用 的 典型 的 矩形 块 大 小 为 32 x 32 或 者 64 x 64. HOST AB 
形 块 进行 分 析 以 选择 闪 值 ， 然 后 使 用 分 析 所 得 闪 值 对 图 像 中 的 矩形 块 进行 闪 值 化 。 在 更 加 复 
杂 的 但 更 慢 ) 的 分 块 阐 值 化 方法 中 ， 对 每 个 分 块 分 析 所 得 益 值 ， 仅 用 于 该 分 块 中 心 处 的 单 
个 像素 。 然 后 方块 移动 一 个 像素 ， 再 重复 整个 过 程 。 


选择 赋值 


选择 阐 值 时 ,可 采用 的 最 简单 的 策略 是 对 分 块 中 的 亮度 取 平 均值 ， 并 选择 i,,s+Ai 作 为 阔 值 ， 
RPA 是 某 个 小 的 增 量 ， 例 如 在 256 个 灰 度 级 别 中 取 5。 这 样 一 个 选取 阔 值 的 简单 方案 却 可 以 
给 出 好 得 令 人 惊讶 的 结果 。 

然而 ， 当 简单 一 些 的 方案 失败 时 ， 不 得 不 采用 更 复杂 的 技术 ， 例 如 基于 直方 图 分 析 的 阔 
值 选取 法 。 在 描述 这 个 方法 之 前 ， 应 先 定义 直方 图 。 

一 幅 图 像 f (x, y) 的 直方 图 h( 让 是 一 个 定义 在 规定 亮度 值 范 围 上 的 函数 。 在 一 个 典型 的 成 像 
系统 中 ， 亮 度 取 值 范围 在 0X00 ( 黑 ) 和 0XFF (A) 之 间 。 一 个 表示 每 个 灰 度 级 别 在 图 像 中 出 
现 的 次 数 的 曲线 图 ， 称 作 一 幅 图 像 的 直方 图 。 图 8-4 所 示 直 方 图 所 对 应 的 图 像 描述 的 是 在 白色 
传送 带 上 传输 一 些 黑 色 零 件 的 场景 。 


20 40 60 80 100 120 140 160 180 


图 8-4 一 幅 双 峰 图 像 的 直方 图 ， 图 像 中 包含 了 非常 多 很 亮 的 像素 
(亮度 在 169 左 右 ) 和 很 暗 的 像素 (亮度 在 1 左右 ) 


注意 ， 在 图 8-4 中 有 两 个 明显 的 峰 ， 一 个 处 于 灰 度 级 别 为 11 的 位 置 上 ， 几 乎 是 纯 黑色 ， 
另 一 个 在 灰 度 级 别 为 169 的 位 置 ， 亮 白色 。 除 噪声 像素 之 外 ， 图 像 中 的 每 个 点 都 分 别 属 于 这 
两 个 区 域 中 的 一 个 。 那 么 ， 在 这 两 个 峰值 区 域 之 间 的 任何 一 个 点 都 可 以 是 一 个 适当 的 阔 值 。 

直方 图 很 少 如 图 8-4 所 示 的 这 样 “好 ”， 因 此 通常 需要 一 些 附 加 的 处 理 (参考 文献 [8.14， 
8.51，8.70] 中 解释 并 试验 比较 了 才干 种 这 样 的 方法 )。 下 一 节 将 描述 一 种 寻找 最 优 阔 值 的 更 为 
复杂 的 方法 。 
多 高 斯 拟 合 (Fitting a sum of Gaussians) 

参考 文献 [8.7] 中 描述 了 一 种 可 以 找到 一 个 多 变量 函数 的 全 局 最 小 值 的 方法 ， 即使 该 函数 
有 多 个 局 部 极 小 值 。 这 是 一 种 称 为 树 退 火 (tree annealing, TA) 的 方法 ， 可 按 以 下 方式 [8.62] 
应 用 于 直方 图 分 析 和 立 值 化 问题 中 。 

给 定 一 个 双 峰 直方 图 ，h()， 其 中 f 表示 亮度 值 ， 采 用 两 个 高 斯 的 和 来 拟 合 直方 图 是 找到 
最 优 辣 值 的 一 种 标准 方法 [8.14]: 


A(x) = “SP | x Fez (8-1) 


A, 
——_ ex 
V2n0, | 20; 203 








CA 
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如 果 对 h(f ) 进行 了 恰当 的 归 一 化 ， 就 可 以 实现 分 别 调整 两 个 高 斯 分 量 的 归 一 化 ， 使 它们 每 一 
个 在 256 个 离散 灰 度 级 别 上 的 总 和 都 为 一 (而 不 是 在 区 间 上 的 连续 积分 为 一 )， 且 满足 附加 的 约束 
条 件 4i+42=1。 使 用 这 个 约束 条 件 ， 可 将 待 估计 参数 的 个 数 从 六 个 减少 至 五 个 ; 不过， 我们 通过 实 
验 发 现 ,采用 六 个 参数 的 JIA 方 法 可 以 更 准确 地 解决 问题 ， 并 且 无 需 在 每 一 步 迭 代 中 都 重新 调整 归 一 - 
化 。 传 统 的 下 降 方法 在 面 对 双 高 斯 问题 时 ， 经 常 在 一 个 次 优 局 部 最 小 值 停止 ， 对 三 高 斯 问题 则 更 
不 可 靠 。 TA 可 以 很 轻易 地 处 理 这 两 种 情况 。 采用 三 高 斯 拟 合 一 幅 图 像 的 直方 图 的 结果 如 图 8-5 所 示 。 











图 8-5 采用 三 高 斯 对 直方 图 进行 最 小 均 方 误差 (MSE) 拟 合 


无 论 采 用 什么 算法 ， 基 于 直方 图 的 阐 值 化 方法 的 原则 都 是 一 样 的 : 寻找 直方 图 中 的 峰值 
点 ， 然 后 在 峰值 中 间 选 择 闭 值 。 

在 许多 工业 环境 中 ， 光 照 可 以 很 好 地 控制 。 在 这 样 的 控制 下 ， 最 优 阔 值 是 不 随时 间 变 化 的 党 
量 ， 可 在 系统 建立 过 程 中 以 交互 方式 选取 。 不 过 ， 通 常 对 图 像 的 不 同 区 域 会 采用 不 同 的 阔 值 。 


8.3 连通 分 量 分 析 


现在 假定 ， 已 选取 了 一 个 适当 的 阐 值 ， 且 图 像 已 划分 为 纯 黑 区 域 和 纯 白 区 域 ， 如 图 8-1 所 
示 。 但 是 车 要 生成 如 图 8-2 所 示 分 割 图 像 ， 则 需要 进行 连通 性 分 析 。 即 ， 如 果 一 个 像素 的 亮度 
值 高 于 六 值 ， 且 与 区 域 中 的 一 个 像素 相 邻 ， 则 认为 该 像素 在 区 域 中 。 由 于 区 域 可 能 是 弯曲 的 
或 者 是 又 形 的 ， 分 析 过 程 不 会 像 从 顶端 出 发 然后 逐步 向 下 标注 相 邻 像素 那样 简单 ， 而 是 需要 
一 种 更 为 复杂 的 技术 。 

“连通 分 量 ” 一 词 源 自 图 论 。 考 虑 图 8-6 所 示 的 图 。 


is) 


图 8-6 由 两 个 连通 成 分 组 成 的 图 
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图 中 有 八 个 顶点 、 八 条 边 以 及 两 个 连通 分 量 。 即 从 A 到 D、 从 B 到 E、 从 F 到 H 等 ， 都 存在 
一 条 沿 着 边 的 路 径 可 到 达 。 但 从 A 到 F 却 没有 可 行 的 路 径 。 在 x 
图 像 分 析 中 ， 将 前 景 像素 看 作 是 图 中 的 顶点 ， 并 把 “ 相 邻 ” 特 
性 表达 为 图 中 的 边 。 在 这 个 定义 下 ， 可 以 看 出 图 8-7 由 两 个 连 
通 分 量 组 成 。 第 12 章 将 更 详细 地 介绍 这 些 图 。 

为 了 使 用 连通 分 量 标号 (connected component labeling, 





图 8-7 一 幅 由 两 个 连通 分 量 


CCL) 这 一 概念 ， 必 须 也 定义 一 个 “标号 图 像 *， 它 是 一 种 用 组 成 的 图 像 
符号 对 图 形 进行 表示 的 方法 ， 与 原始 图 像 同 构 ， 但 每 个 像素 都 
包含 了 它 所 属 分 量 的 序号 men 


存储 器 ， 并 与 原始 图 像 的 帧 缓存 相对 应 ， 就 像 图 8-7 与 图 8-8 相 
对 应 一 样 。 在 这 种 描述 下 ， 称 “黑色 ”像素 为 对 象 ， 而“ 白色” 
像素 为 背景 。 图 8-8 与 图 8.7 相 应 的 标号 图 像 

初始 时 ， 标 号 存储 器 民 中 的 每 个 单元 都 设 为 零 。 我 们 称 这 个 图 像 的 帧 缓存 为 因此 对 某 
个 标记 序号 为 N 的 标注 操作 可 写 为 L(x, y) 一 NN。 


8.3.1 递归 式 区 域 增长 算法 


该 算法 采用 了 一 个 下 推 堆栈 来 实现 区 域 增长 ， 下 推 堆 栈 可 临时 保留 在 区 域 中 有 关 像 素 的 
坐标 。 
1) 找到 一 个 未 标号 ( 即 L(x, y)=0) 的 黑色 像素 。 为 这 个 区 域 选取 新 的 标号 序号 ， 用 N 表 

示 。 如 果 所 有 的 像素 都 已 被 标号 ， 算 法 停止 。 
2) L(x, y) - N. 
3) Au fx 一 1,y) 是 黑色 的 ， 且 L(x -1,y)=0， 将 坐标 (x -1,y) 压 入 堆栈 。 
如 果 fx+1,y) 是 黑色 的 ， 且 L(x+1,y)=0， 将 (x+1,y) 压 入 堆栈 。 
WRS- DEREK, HLE, y 一 1)=0， 将 (x,y 一 1) 压 入 堆栈 。 
MURS, y+1) 是 黑色 的 ， 且 L(x, y+1)=0， 将 (x, y+1) 压 入 堆栈 。 
4) 从 堆栈 中 取出 一 个 值 作为 新 的 (x, y)。 
5) 如 果 堆 栈 为 空 ， 跳 转 至 步骤 1， 否 则 跳 转 至 步骤 2)。 
标号 操作 的 结果 可 得 到 一 组 连通 区 域 ， 每 个 区 域 都 分 配 有 一 个 唯一 的 标号 序号 。 对 任 一 
给 定 像 素 ， 如 果 想 要 找到 其 所 属 区 域 ,计算机 只 需 访问 该 像素 在 L 存 储 器 的 相应 位 置 ， 并 读 出 
区 域 序 号 即 可 。 ids 


范例 : 应 用 区 域 增长 算法 O €- top 
图 8-9 给 出 了 一 个 4 x 7 的 像素 组 。 假 定 <x, y> 的 初始 值 为 

<2, 4>。 应 用 “增长 ”算法 ， 并 给 出 每 执行 完 一 次 步骤 3) 后 

的 堆栈 和 Z 的 内 容 。 令 N 的 初始 值 为 1。 
解 
第 1 轮 ” 刚 执行 完 步骤 3) 后 的 情况 。 算 法 查看 前 景 像素 

<2, 4>， 以 及 它 的 4 邻 域 ， 并 检测 到 它 的 4 邻 域 中 只 有 一 个 像素 

<3, 4> 属 于 前 景 。 于 是 ， 将 这 一 像素 的 坐标 压 入 堆栈 顶部 。 图 8-9 一 幅 例 图 阔 值 化 后 的 结果 


31111 


生成 标号 图 像 的 一 种 算法 称 为 “区 域 增长 "。 它 使 用 标号 
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770 0 0 0 
61/0 000 
堆栈 : 5|0000 
L=4]0 1 0.01 
| G4) |< top 310 0 0 0 " 
210 000 
11000 90 
1234 
第 2 轮 ”从 堆栈 顶部 移 开 像素 <3, 4>， 并 将 L 图 像 中 的 对 应 位 置 标记 为 1， 查 看 它 的 令 域 ， 
在 4 邻 域 中 找到 了 两 个 像素 <3, 3> 和 <3, 5>; 将 二 者 都 压 人 堆栈 。 . 
7[0 0 0 0 
61/0 000 
HER 5|0 0 0 0 
(3, 5) | < top L=4/0 1 1 0 
(3, 3) 310 00 0 
210 000 
1]0 000 
123 4 


第 3 轮 堆栈 顶部 为 <3,5>。 从 堆栈 中 移 开 这 一 像素 ， 并 将 L 图 像 中 的 对 应 位 置 标记 为 1!。 查 看 
它 的 所 有 邻接 点 ， 并 在 4 邻 域 中 检测 到 一 个 像素 <3, 6>。 于 是 ， 将 这 一 像素 的 坐标 压 人 堆栈 顶部 。 


770 000 
610 0 0 0 
堆栈 : 510010 
(3, 6) | < top L—-4|0 1 1 0 
(3,3) 3/0 0 0 0 
210 0 0 0 
110 000 
123 4 


第 4 轮 再 次 “出 ” 栈 ， 这 一 次 去 除 的 是 <3, 6>, 并 将 了 图 像 中 的 对 应 位 置 标记 为 1。 查 看 
这 个 像素 ， 在 4 邻 域 中 未 发 现 没 有 标号 过 的 像素 。 


7 
6 
5 
堆栈 : L=4 
(3,3)| — top 3 

2 

1 


wo oodr KH K&S OC 
^*ooocoooo 


$516 再 次 出 栈 ， 移 开 <3, 3> ， 并 将 [图像 中 的 对 应 位 置 标记 为 1。 查 看 这 个 像素 ， 在 4 邻 
域 中 未 发 现 没 有 标记 过 的 像素 。 


7000 0 

6]0 01 0 

slo 01 0 
HR: L=4/0 1 1 0 
0 « top 3/0 010 
210 000 

110000 

123 4, 
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第 6 轮 再 次 出 栈 ， 返 回 值 为 “堆栈 为 空 ”， 则 算法 结束 ， 而 所 有 的 黑色 像素 均 已 标号 。 

这 个 区 域 增长 算法 仅仅 是 执行 连通 分 量 分 析 的 若干 策略 之 一 。 还 有 其 他 的 策略 ， 比 上 文 
描述 的 方法 在 速度 上 还 要 快 ， 其 中 包括 一 些 可 按 光 栅 扫描 的 速度 运行 的 策略 [8.6]。 现 在 就 来 
看 看 一 种 这 样 的 技术 。 


8.3.2 和 迭代 式 连 通 分 量 分 析 方 法 


由 于 区 域 增长 方法 的 结果 总 是 能 够 得 到 闭合 区 域 ， 因 此 更 适用 于 其 他 的 基于 边缘 检测 或 
者 线 拟 合 的 技术 。 关 于 基本 的 区 域 增长 方法 的 许多 变种 及 其 应 用 可 参见 [8.10，8.16]。 尽 管区 
域 增长 方法 被 证 明 是 场景 分 析 中 的 主要 方法 ， 但 是 它 的 应 用 会 迅速 成 为 计算 瓶颈 ， 尤 其 是 对 
高 分 辩 率 图 像 。 这 促使 人 们 考虑 有 关 区 域 分 割 的 另 一 些 更 快 更 加 硬件 化 的 方法 。 

这 一 节 将 介绍 递归 式 区 域 增 长 的 一 种 替代 算法 。 这 个 算法 在 功能 上 等 同 于 递归 式 区 域 增 
长 方法 ， 同 样 返回 一 组 标注 好 的 像素 ， 且 满足 相 邻 性 以 及 相似 性 等 标准 。 

尽管 这 个 算法 在 功能 上 与 传统 的 区 域 增长 方法 相同 ， 但 在 概念 上 以 及 可 能 的 实现 方法 上 
都 有 根本 的 区 别 。 

设计 这 个 算法 的 目的 是 寻找 一 种 方式 ， 可 达到 与 区 域 增长 同样 的 结果 、 但 同时 期 望 能 够 
通过 单 向 遍历 数据 来 实现 。 采 用 内 容 可 寻 址 的 存储 器 的 概念 ， 可 以 达到 这 样 的 结果 。 这 个 存 
储 器 可 以 是 硬件 的 一 个 物理 单元 ， 也 可 以 是 模拟 软件 中 一 种 查找 表 驱 动 的 访问 方法 。 

该 算法 以 图 像 中 像素 之 间 的 等 价 关系 的 概念 为 基础 。 等 价 性 的 定义 如 下 : 两 个 像素 4a 和 2b 
被 定义 为 是 等 价 的 〈 记 为 Ra, 5b))， 如 果 它 们 都 属于 图 像 中 的 同一 区 域 。 在 这 样 的 定义 下 ， 这 
一 关系 表现 出 了 自 反 性 (R(a, a)), HERE (Ra, b)=>R(b, a)) ， 以 及 传递 性 (Ra, b)ANDR(b， 
c) 一 R(a, c))， 因 此 可 称 之 为 “等 价 关 系 ”。 

传递 特性 使 一 个 区 域内 的 所 有 像素 可 仅 依 据 局 部 相 邻 特性 来 确定 。 在 算法 中 ， 每 个 像素 


按 自 左 向 右 ， 自 顶 向 下 的 光栅 扫描 方式 与 其 每 个 相 邻 像素 进行 比 n 
较 。 这 些 比较 操作 的 结果 是 为 像素 分 配 一 个 区 域 标号 。 对 简单 的 mnm 
二 值 图 像 中 的 像素 ， 可 按 光 栅 扫描 次 序 标号 。 区 域 标号 过 程 简单 TES 
直接 : 首先 查看 左 侧 像素 ,将 它 看 作 是 邻近 像素 并 采用 它 的 标号 。 mm 


再 查看 位 于 上 方 的 像素 ， 将 它 看 作 邻近 像素 。 如 果 二 者 均 已 标号 ”图 8-10 标号 分 配 中 的 歧义 性 
且 标号 不 同 ， 则 有 一 个 问题 。 图 8-10 给 出 了 这 样 比较 的 结果 可 能 会 产生 的 情形 ， 此 时 在 标记 
为 问号 的 像素 处 可 发 现 等 价 关系 R(1, 2). 

在 [8.60] 提 出 的 系统 中 ， 使 用 硬件 为 像素 分 配 区 域 标号 ， 并 维护 一 个 等 价 关系 表 。 图 8-12 中 
显示 该 硬件 位 于 图 像 存 储 器 与 一 台 主 机 之 间 。 功 能 上 ， 该 硬件 对 主机 是 透明 的 。 在 图 8-10 所 示 
例子 中 ， 主 机 可 感知 到 所 有 的 属于 区 域 1 的 像素 (这 里 等 价 关系 中 次 序 较 低 的 区 域 标号 优先 )。 

关于 硬件 操作 流程 的 描述 见 图 8-11。 为 了 理解 这 个 流程 框图 ， 引 入 如 下 的 符号 : 

* f o 7) 是 像素 (xz, 7) 的 灰 度 值 ， 存 储 于 图 像 存储 器 中 。 

* (x, y); 是 像素 (x, y) 的 第 i 个 邻接 点 。 

* f; a VERE, y) 的 第 i 个 邻接 点 的 灰 度 值 。 

eLa ?) 是 与 像素 (x, 7) 相 应 的 区 域 标 号 ; 存储 于 图 像 存储 器 中 。 

。 (x, 是 与 像素 (x,y) 的 第 i 个 邻接 点 相应 的 区 域 标号 。 

*K(i) 是 等 价 存储 器 中 第 i 个 元 素 的 内 容 。 这 个 存储 器 是 内 容 可 寻 址 存储 器 。 

。K*(i)=KY) 意 味 着 如 下 序列 : 











pm 
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* RKQ). 
* 以 i 为 搜索 线索 来 搜索 K (也 就 是 确定 所 有 的 !， 使 得 K(1)=i)。 
。 将 KO) 写 入 搜索 得 到 的 所 有 肯定 响应 者 中 。 

° TÆRNE. 

*p 是 区 序号 最 高 的 区 域 标号 (初始 值 为 1)。 

“AN 是 邻 域 中 的 像素 个 数 (4 或 8 连通 )。 





初始 化 存储 器 得 到 
p=0 第 1 个 像素 


> po 


z=max(K(L(Q, y), K(L; (x. y))) 
w=min(K(L(x, y), K(L (x, y))) 


m 
K*(2)=K(w) 


图 8-11 算法 的 流程 框图 (摘自 [8.60] ) 


图 8-13 显 示 的 是 ， 该 算法 在 从 Milgram 等 [8.41] 任 意 选 出 的 某 个 区 域 上 运行 的 结果 。 这 里 
HER, KARI, y) - f, (x, JI<7 用 来 检验 两 个 像素 是 否 相 似 。 还 有 其 他 可 用 的 相似 性 度量 ， 
包括 局 部 一 阶 和 /或 二 阶 统计 量 。 如 果 两 个 像素 符合 这 个 标准 且 二 者 相 邻 ， 则 它们 在 同一 区 域 
内 。 根 据 定 义 ， 如 果 两 个 像素 在 同一 区 域内 ， 则 有 Ra, b). BD (Gy) y) B 
W Dal f(x, y) - fy) x T) e» R((x, y) (x. y) 

An MARNE BH, d RABE. FER BE HEISE LH R((x. y) (x^) > [fo » 
-fG.y)|«T . 

随 着 区 域 分 割 的 实时 〈 即 与 光栅 扫描 同步 ) 进行 ， 有 两 个 操作 必须 执行 。 第 一 ， 每 个 在 
考虑 中 的 像素 的 区 域 标号 序号 必须 载 人 Z 存 储 器 ， 第 二 ， 必 须 用 已 发 现 的 所 有 等 价 关系 来 更 新 
存储 器 。 例 如 ， 如 果 区 域 4 实际 上 与 区 域 2 相同 ， 则 Kk(2) 和 K(4) 的 内 容 均 为 2 (次 序 更 低 的 区 域 
标记 优先 )。 因 此 ， 当 主机 访问 L 存 储 器 中 的 像素 (x, y) 时 ， 界 面 /处 理 器 根据 存储 器 解释 L(x, y) 





得 到 下 一 个 像素 
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并 向 主机 返回 K(L(x, y))。 例 如 ， 图 8-13 中 的 像素 (11, 11) 将 返回 成 属于 区 域 1， 这 是 因为 
K(L(11, 11))=K(4)=1. 

在 此 类 程序 中 常常 会 遇 到 的 困难 是 链接 问题 。 即 如 果 R(2, 4) 和 R(3, 4) 已 经 确定 ， 则 R(C2, 3) 
也 必然 可 以 推断 出 来 。 然 而 ， 在 图 像 处 理 结束 后 要 求 机 器 搜索 出 所 有 此 类 可 能 情况 ， 会 使 得 
在 扫描 期 间 执行 区 域 分 割 的 最 初 目标 受挫 。 这 里 ， 算 法 通过 确保 K(2)=K(3)=K(4)=2， 来 避免 
链接 。 不 过 ， 这 仅仅 是 将 链接 问题 转移 给 了 扫描 和 标号 过 程 而 已 。 

算法 流程 图 8-11 中 的 模块 A 解决 的 是 链接 问题 。 一 旦 检测 到 等 价 关系 ，K 存 储 器 中 所 有 包 
含 较 大 区 域 标签 序号 的 位 置 就 要 重新 载 和 更 小 的 区 域 标号 序号 。 对 于 传统 的 随机 访问 存储 器 
而 言 ， 实 时 完成 这 一 步 是 不 太 可 行 的 ， 不 过 它 正 属于 内 容 可 寻 址 存储 器 的 一 项 功能 ， 关 于 后 
者 将 在 下 一 节 进 行 讨 论 。 
执行 体系 结构 

用 于 执行 该 算法 的 体系 结构 见 图 8-12。 我 们 打算 将 该 硬件 作为 现 有 基于 计算 机 的 图 像 处 
理 系统 中 的 专用 处 理 器 。 这 个 体系 结构 主要 包括 四 部 分 : 图 像 存 储 器 (D ， 区 域 标号 存储 器 (Z)， 
等 价 存储 器 (KE) ， 以 及 一 个 界面 /处 理 器 。 图 像 的 灰 度 值 存储 于 图 像 存储 器 中 。 一 般 情 况 下 ，/ 
存储 器 包含 512 x 512 个 字 节 。 为 每 个 像素 分 配 的 区 域 标号 存储 于 区 域 标号 存储 器 中 。 但 是 , L 
存储 器 的 内 容 还 包括 所 有 作为 媒介 的 区 域 标 号 ， 等 价 关系 正 是 根据 它们 确定 的 。L 存 储 器 的 内 
容 通 过 采用 简单 直接 的 表 查 找 硬件 ， 根 据 等 价 存储 器 的 内 容 进 行 解释 。L 存 储 器 的 大 小 与 用 来 
表达 每 个 像素 的 区 域 标号 (包括 媒介 区 域 标号 ) 所 需 的 比特 长 度 直 接 相 关 。 










































« 图 像 存储 器 
UL 
1 11|1 
Ai 区 域 标号 2 BH 1 
处 理 器 存储 器 3 nv 
(L) 4 |! 1 
5 111 
6 111 
7 111 
等 价 存储 器 8 [ili 
(K) 9 [111 
10,1] 1 
i 11 1) 1 


























| EE 机 | 123 4 5 6 7 B 9 10 11 1213 14 15 16 17 
图 8-12 一 个 区 域 标 号 系统 的 体系 结构 图 8-13 一 个 比较 困难 的 标号 问题 的 例子 (摘自 [8.60]) 





图 8-13 举 例 说 明了 一 个 较 困 难 的 标号 问题 ， 表 8-1 解 释 了 对 这 个 例子 的 标号 过 程 。 

7 了 存储 器 和 Z 存 储 器 均 为 传统 的 随机 访问 存储 器 。 但 是 ， 等 价 存储 器 有 两 种 操作 模式 。 它 
可 以 是 一 个 传统 的 RAM (随机 访问 存储 器 ) 模式 ， 输 入 地 址 与 区 域 标号 表 相 对 应 ， 而 输出 数 
据 是 等 价 关 系 表 。 它 也 可 以 在 副 存储 器 模式 下 ， 用 于 更 新 等 价 关系 表 。 这 一 模式 下 ， 有 两 种 
操作 在 双 相 时 钟 下 可 同时 发 生 。 
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表 8-1 标号 算法 进行 过 程 中 等 价 存储 器 的 内 容 
天 存储 器 地 址 





第 一 相位 : 内 容 与 数据 总 线 的 内 容 相 匹配 的 所 有 存储 器 单元 ， 均 设置 为 允许 触发 flip- 
flop) ( 见 图 8-14)。 

第 二 相位 : 所 有 人 允许 触发 的 存储 器 单元 都 设置 为 
可 读 取 数 据 总 线 内 容 。 

通过 这 项 操作 ， 可 在 扫描 过 程 中 有 效 地 并 行 更 新 
等 价 表 。 

在 扫描 结束 时 ， 通 过 一 个 搜索 算法 来 更 新 等 价 关 
系 表 ， 也 是 可 以 的 。 但 是 ， 在 扫描 期 间 并 行 地 更 新 可 
以 极 大 地 减少 表 中 的 等 价 关系 个 数 ; (因为 总 是 使 用 最 
低 的 序号 )， 从 而 可 以 减少 K 存 储 器 所 需 的 比特 数 。 内 
容 可 寻 址 存储 器 具有 这 样 的 特性 : 存储 器 单元 可 以 依 
据 其 内 容 被 访问 或 加 载 [8.45，8.69，8.77]。 地 址 总 线 数据 总 线 

在 设计 一 个 令 人 满意 的 存储 器 时 至 关 重 要 的 参数 ， 图 8-14 K 存 储 器 的 组 织 结构 
同时 也 是 令 系统 能 够 实时 操作 的 重要 因素 ， 是 存储 器 
的 大 小 。 如 果 能 够 较 好 地 权衡 存储 器 大 小 与 访问 速度 之 间 的 矛盾 ， 则 会 得 到 一 个 接近 实时 的 
系统 。 有 关 存 储 器 大 小 的 问题 在 [8.60] 中 作 了 深入 的 讨论 ， 基 中 还 对 引入 了 真实 图 像 的 模拟 进 
行 了 描述 。 

体系 结构 的 最 后 一 部 分 是 界面 /处 理 器 。 这 一 单元 的 主要 目的 是 执行 本 节 以 及 流程 框图 
8-11 中 介绍 的 算法 。 另 外 ， 它 必须 能 够 1) 对 视频 信号 输入 进行 处 理 ， 将 其 灰 度 值 存 人 存储 器 
中 ， 以 及 2) 依据 K 存 储 器 来 解释 上 存储 器 。 


仿真 

将 算法 应 用 至 一 个 512 x 512 的 文本 图 像 ， 图 像 在 分 割 之 前 已 进行 了 阔 值 化 。 有 两 个 参数 
是 我 们 感 兴趣 的 : 1) ATER (这 些 区 域 的 标号 存储 于 L 中 ) 的 个 数 ， 它 影响 L 和 K 的 字 宽 以 
及 K 的 长 度 ; 2) 算法 所 觉察 的 区 域 个 数 ， 它 决定 了 从 图 像 中 收集 到 有 用 信息 之 前 主机 必须 执 
行进 一 步 处 理 的 量 。 

仿真 结果 总 结 如 下 : 

“4 邻 域 连通 。912 个 基本 区 域 ，138 个 觉察 区 域 。 

“8 邻 域 连通 。883 个 基本 区 域 ，109 个 觉察 区 域 。 

从 这 些 结果 可 以 看 出 一 幅 图 像 需 要 512 x 512 x 10 比 特 L 存 储 器 以 及 一 个 1024 x 10 比 特 存储 器 。 
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本 节 讨 论 的 是 对 电视 扫描 数据 进行 实时 的 图 像 分 析 操 作 。 前 文 已 表明 ， 按 这 种 方式 能 够 
设计 出 硬件 ， 来 执行 区 域 增 长 操作 。 使 用 等 价 关 系 来 分 割 一 幅 输 入 图 像 的 概念 是 这 个 算法 的 
基础 。 此 外 ， 采 用 内 容 可 寻 址 的 读 / 写 存储 器 促进 了 这 样 的 等 价 关 系 处 理 过 程 的 实时 实现 。 195 

这 些 概念 是 通过 考虑 将 来 可 能 的 硬件 结构 而 发 展 出 来 的 ; 然而 ， 算 法 并 不 妨碍 它 在 数字 
计算 机 上 的 实现 。 这 里 描述 的 程序 用 来 仿真 这 个 方法 的 有 效 性 ， 并 被 采用 于 在 图 像 分 割 中 标 
号 区 域 。 在 达到 同样 的 性 能 时 ， 它 的 操作 速度 ， 即 使 是 在 仿真 中 ， 仍 然 优 于 早期 的 区 域 增长 
算法 。 

8.3.3 标号 图 像 的 一 种 替代 方法 


在 本 章 ， 我 们 主要 采用 了 标号 图 像 作 为 辨识 像素 所 属 区 域 的 手段 ， 另 一 些 研究 者 [8.73] 采 
用 了 一 种 基于 树 的 方法 。 即 建立 一 幅 图 ， 对 给 定 的 父亲 ， 假 定 其 所 有 儿子 属于 同一 个 区 域 。 
因而 ， 这 幅 图 中 的 层级 与 尺度 级 别 相对 应 。 即 一 个 “ 父 节 点 ” 相 比 子 节点 处 于 更 高 一 层 (更 
模糊 ) 级 别 的 尺度 。 如 果 1) 一 个 子 节点 与 父 节点 在 儿 何 上 相 邻 2) 二 者 亮度 值 相似 ， 则 定义 
该 子 节点 与 其 父 节 点 相关 。 更 多 相关 细节 可 参见 [8.73]。 


8.4 ”曲线 分 割 


有 时 区 域 的 边界 已 知 ， 而 我 们 对 以 某 种 方式 描述 这 个 边界 感 兴 趣 ， 这 种 描述 应 该 或 者 是 
适合 于 表征 整个 边界 或 者 适合 于 表征 个 别 片断 。 为 此 ， 有 许多 实现 方法 [8.17, 8.42, 8.52], 
但 几乎 所 有 这 些 方 法 都 需要 识别 边界 上 的 特异 点 [8.15，8.26，8.55，8.79]， 然后 再 描述 这 些 
“特异 ”点 之 间 的 曲线 。 显 然 ， 如 何 定义 特异 性 [8.18，8.23，8.48] 对 算法 性 能 是 非常 重要 的 。 

首先 ， 我 们 知道 曲线 就 是 在 二 维 空间 中 弯曲 的 一 维 函 数 。 即 曲线 可 以 用 单个 参数 的 参数 
化 表示 ， 这 个 参数 通常 是 弧 长 。 然 而 ， 采 用 弧 长 的 参数 化 表示 对 仿 射 变换 并 不 是 不 变 的 [9.1]。 
为 此 ，Rivlin 和 Weiss [8.49] 设 计 了 不 采用 任何 参数 的 曲线 不 变量 。 曲 线 上 一 点 的 z 一 ?坐标 可 写 
ARF MK st —H BR, y(s)=(x(s), y(9)]，s 也 就 是 沿 着 曲线 前 进 的 上 距离。 如 果 曲 率 作 为 弧 长 
的 函数 是 已 知 的 ， 则 可 以 任意 建构 一 条 平滑 曲线 , 在 一 个 刚体 运动 条 件 下 是 等 价 的 [8.76]。 当 
然 ， 我 们 处 理 的 曲线 不 可 能 是 一 条 以 弧 长 为 参数 的 平滑 曲线 ， 因 为 我 们 只 能 得 到 对 这 样 的 曲 
线 进行 采样 的 结果 。 而 且 ， 真 实 弧 长 与 曲线 通过 的 像素 个 数 之 间 的 关系 并 不 像 想 像 中 那样 简 
单 [8.31]。 事 实 上 ， 即 使 对 于 无 噪声 的 曲线 ， 数 字 化 过 程 也 必然 会 引入 误差 [8.76]。 有 趣 的 是 ， 
附加 的 噪声 ， 可 能 会 令 我 们 更 准确 地 估计 曲线 〈 至 少 是 直线 的 ) 所 在 的 位 置 [8.37]. 

曲线 在 点 s 处 的 速率 为 

, àxV^ (yy. 
wo 5 «(2 D 


(= y(s) aix) 
Os 
v) 


假设 曲线 是 闭合 的 ， 则 内 部 (INSIDE) 和 外 部 (OUTSIDE) 的 概念 是 有 意义 的 。 给 定 平面 上 
不 在 当前 曲线 上 的 一 点 x=[x;, y], SpA E SRR BMA 〈 在 这 一 点 上 ， 弧 长 定义 
As). MRi- pln, (s2) < 0， 则 称 x 属于 内 部 ， 否 则 称 x 属于 外 部 。 


曲线 在 点 s 处 的 外 法 向 为 


ny (s)= 


150 RSE 








在 执行 曲线 演变 时 ( 见 第 9.8 节 )， 有 一 种 方式 [8.54] 可 以 使 闭合 区 域 的 面积 始终 保持 不 变 。 

还 有 一 种 方法 不 要 求 必须 找到 特异 点 。Chen [8.13] 仅 仅 是 将 一 个 方向 选择 滤波 器 应 用 于 
所 有 可 能 的 方向 。 如 果 两 个 曲线 片段 具有 非常 不 同 的 方向 ， 则 滤波 器 的 响应 结果 会 具有 多 个 
峰值 ， 而 峰值 的 位 置 可 用 于 辨识 这 两 个 片断 。 这 个 方法 似乎 很 适合 于 由 X 或 T 型 交叉 直线 (DU 
第 10 章 中 关于 交叉 类 型 的 讨论 ) 构成 的 图 像 。 

Rosen 和 West [8.50] 提 出 了 一 个 稍稍 不 同 的 寻找 特异 点 的 策略 。 他 们 利用 任何 一 种 看 起 来 
可 能 适合 的 函数 (椭圆 或 直线 ) ， 来 拟 合 数据 点 序列 。 拟 合 结果 最 差 的 数据 点 被 认为 是 特异 点 。 
然后 将 曲线 分 割 为 两 个 片段 ， 接 着 对 每 一 片断 再 递归 地 重复 拟 合 过 程 。 


8.5 主动 轮廓 线 


主动 轮廓 线 ( 蛇 形 线 ) 的 概念 最 初 用 于 解决 这 样 一 个 现实 问题 ， 任何 边缘 检测 算法 都 会 
对 某 些 图 像 失效 ， 这 是 因为 在 图 像 的 某 些 区 域 中 ， 边 缘 完 全 不 存在 。 例 如 ， 图 8-15 是 在 核 医 
学 中 拍摄 的 一 个 人 的 心脏 图 像 。 放 射 性 药物 被 送 入 循环 系 
统 ， 图 像 中 的 每 一 点 反映 的 是 该 点 上 的 辐射 强度 。 某 一 点 
上 的 亮度 值 ， 也 就 是 在 与 成 像 平面 正 交 的 方向 上 ， 对 该 像 
素 所 覆盖 的 范围 内 血 的 总 量 的 观测 量 。 心 室 中 的 血 量 因 此 
可 以 通过 对 整个 心室 区 域内 亮度 的 总 和 来 计算 。 当 然 ， 这 
要 求 正 确 地 分 割 出 心室 的 边界 ， 但 是 如 下 的 事实 又 带 来 了 
一 个 难题 ， 即 心室 左上 角 处 根本 没有 亮度 差异 。 这 是 因为 ”图 8-15 核 医学 中 拍摄 的 左 心室 图 像 
从 其 他 位 于 心室 之 后 的 源头 〈 较 高 或 较 低 静 脉 腔 ， 等 等 ) 
出 来 的 放射 线 模 糊 了 边界 上 的 亮度 差异 。 因 此 ， 需 要 这 样 一 个 技术 ， 它 可 以 搭 接 这 些 (边界 
片断 之 间 ) 相当 大 的 缝隙 一 一 这 些 缝隙 太 大 ， 大 到 无 法 采用 第 7 章 所 描述 的 闭 运算 来 接合 。 

根据 主动 轮廓 线 的 原理 ， 首 先 要 初始 化 一 个 轮廓 ， 初 始 轮廓 可 以 是 用 户 定义 的 也 可 以 
是 自动 生成 的 。 然 后 ， 移 动 边 界 ， 直 至 许多 /大 多 数 轮廓 线 与 图 像 的 边缘 点 相 匹 配 。 由 于 轮 
廊 在 搜索 边界 点 时 的 移动 过 程 ， 会 使 观察 者 联想 起 蛇 的 行为 ， 因 此 这 些 边界 通常 被 称 作 

推导 蛇 形 线 算法 时 ， 可 遵循 两 个 原则 : 能 量 最 小 化 原则 和 偏 微分 方程 原则 。 


8.5.1 能 量 最 小 化 原则 


边界 的 移动 会 减弱 能 量 : E=E,+E:， 其 中 内 能 (E) 表征 曲线 本 身 ， 外 能 (Es) 表征 轮廓 
线 当 前 所 在 位 置 附近 的 图 像 区 域 。 
内 能 量 测 的 是 沿 着 曲线 方向 弯曲 的 程度 ， 以 及 曲线 有 多 长 等 等 。 
内 能 的 具体 形式 取决 于 具体 应 用 ， 常 用 形式 如 下 
E,= Salx, - X|«glx.., - 2X, + Xal 


其 中 ，X; =[x; yj] 是 轮廓 线 上 的 点 。 最 小 化 第 一 项 ， 会 使 曲线 上 的 点 相互 靠拢 。 最 小 化 第 二 项 ， 
会 使 曲线 几乎 不 弯曲 。 第 一 项 可 能 会 产生 一 个 消极 影响 ， 即 最 小 化 这 一 项 的 结果 会 使 轮廓 线 
退化 至 单个 点 。 因 此 ， 在 许多 应 用 中 还 引入 了 一 个 “扩展 ”项 ， 以 使 整个 曲线 增 大 。 

外 能 量 测 的 是 轮廓 边界 穿越 的 区 域 是 否 为 边缘 。 这 里 也 有 许多 函数 可 以 采用 。 我 们 最 喜 
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欢 采 用 的 是 
E, = Sexp(-|VA(X,))) 


对 二 维 空间 内 的 最 小 化 问题 ， 可 以 通过 动态 规划 来 解决 [9.191]。 但 是 ， 除 了 度量 位 于 边界 上 的 
局 部 边缘 性 ， 也 可 利用 内 部 与 外 部 之 间 的 平均 对 比 度 差 异 [9.55] 的 方法 ， 但 该 方法 仅 在 外 部 区 
域 相对 均匀 时 是 有 意义 的 。 

MAP( 最 大 后 验 概率 ) 方 法 完全 适用 于 这 个 问题 ， 且 可 以 使 用 模拟 退火 (SA) [9.78]。 但 是 ， 
搜索 邻 域 时 会 遇 到 问题 。 正 如 我 们 已 经 讨论 的 ，SA 可 以 保证 从 一 组 状态 中 ， 找 到 全 局 最 小 的 
状态 。 但 是 ， 这 组 状态 必须 按 SA 要 求 的 次 序 进行 采样 ， 算 法 才能 够 起 作用 。 在 参考 文献 
[9.78] 中 ， 用 一 个 现 有 轮廓 线 作 为 初始 状态 ， 在 每 次 迭代 中 ， 只 对 那些 距离 当前 轮廓 一 个 像素 
范围 之 内 的 轮廓 进行 采样 ， 并 从 中 选取 一 个 最 小 值 。 最 终 轮 廓 是 采样 所 得 一 组 轮 廊 中 最 优 的 
那个 ,但 并 不 一 定 是 所 感 兴趣 的 整个 区 域 中 最 优 的 那 一 个 。 

所 选择 的 能 量 函 数 的 形式 应 当 对 尺度 、 平 移 以 及 旋转 是 不 变量 , 这 一 点 是 非常 重要 的 。 为 
此 ， 可 采用 的 一 个 办 法 是 使 用 两 条 蛇 形 线 ， 并 赋予 适当 的 权重 ， 一 个 在 假定 的 边界 之 外 往 里 
收缩 ， 男 一 个 初始 时 在 边界 之 内 然后 逐步 扩大 [9.25]。 


8.5.2 偏 微分 方程 方法 


一 条 轮 廊 线 C 的 移动 可 以 描述 为 4Ci/df=s(X)N(X)， 其 中 NN(X) 是 轮廓 线 上 第 i 个 点 的 法 向 量 ， 
Ci 是 轮廓 线 上 一 点 ，s 是 速度 。 左 式 代 表 轮 廊 线 上 第 i 个 边界 点 的 移动 。 右 式 描述 的 则 是 边界 沿 
着 法 向 量 的 移动 。 点 C; 的 “移动 ”实际 上 包括 了 该 点 r+，y 坐 标的 变化 。 

速度 s， 是 两 个 函数 的 乘积 

5(X,y) = 5,(%,y)5_ (x,y) (8-2) 


其 中 5, (x,y) = +1- ex(x, y) sco y) - 1/1 AQ y). AG y) 是 对 图 像 中 点 zx，y 处 的 “边缘 ”的 
观测 量 ，x Gc, YUE x, yREBBUSE B £k dif SEDED RE 

Manhaeghe 等 采用 Kohonen 映 射 [9.47] 得 到 了 一 个 类 似 主 动 轮廓 线 的 结果 ; 也 可 参见 
[9.88]。 这 个 方法 的 一 个 好 处 是 ， 计 算 具 有 局 部 性 。 只 需 查 看 当前 边界 上 的 一 点 ， 并 考虑 该 点 
应 如 何 移动 。 然 后 选择 一 个 候选 位 置 并 确定 移动 到 该 位 置 时 能 量 是 增加 的 还 是 减少 的 ( 如果 
使 用 了 能 量 最 小 化 方法 )。 

但 是 ， 仅 考虑 边界 点 的 移动 会 引入 一 些 问 题 。 首 先是 从 边界 点 准确 计算 出 曲率 很 困难 。 
正如 大 家 所 了 解 的 ， 任 一 基于 导数 的 运算 对 噪声 都 极其 敏感 。 由 于 曲率 计算 引入 了 二 阶 导 数 ， 
因此 效果 其 至 更 差 。 另 一 个 问题 是 并 不 真正 存在 一 种 有 效 的 方法 ， 能 使 边界 划分 为 几 个 相互 
分 离 的 部 分 。 接 下 来 要 描述 的 水 平 集 方法 试图 解决 这 些 困难 。 

还 记得 距离 变换 吗 ? 在 第 7 章 ， 从 距离 变换 引出 一 个 函数 DT(x, y)， 像 素 点 在 边界 上 时 
函数 取 值 为 零 ， 随 着 像素 点 远离 边界 ， 函 数值 增 大 。 现 在 ， 考 虑 距离 变换 的 一 种 新 形式 ， 
在 相关 轮廓 的 外 部 ， 它 的 值 与 原 距 离 变换 函数 相同 ( 记 住 ， 轮 廊 线 是 闭合 的 ， 因 此 在 这 里 
内 部 和 外 部 的 概念 是 有 意义 的 . ) 在 轮 廊 内 部 ， 新 的 函数 (我 们 称 之 为 度量 函数 ) 是 距离 函 
数 的 负 值 。 

DT(x,y) ，G 刀 在 轮廓 外 部 


-DT(x. y) , (x, Y EEG BEP AR (8-3) 
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fA-RMEN TRE LOR, HOHER TAE. WEYA, 7)=C 的 点 集 被 称 作 V 的 C 水 平 集 ， 
而 我 们 特别 感 兴趣 的 是 零 水 平 集 。 

现在 ， 我 们 要 修改 度量 函数 多。 对 每 个 点 (x, 力 ， 我 们 计算 一 个 新 的 值 Wx, y)。 有 多 种 修改 
这 些 点 的 方式 ， 下 面 会 读 到 其 中 的 一 部 分 ， 但 要 记 住 ， 修 改 后 感 兴趣 的 轮廓 仍然 是 度量 函数 
为 零 的 点 的 集 。 首 先进 行 初 始 化 ， 使 它 等 于 距离 变换 ， 但 从 这 里 开始 ， 不 能 再 将 它 认为 是 距 
离 变 换 (尽管 它 仍然 保留 了 距离 变换 的 某 些 特性 )。 相 反 ， 只 需 认为 它 是 另外 一 个 “亮度 值 ”， 
一 个 关于 x 和 ?的 函数 。 

什么 是 度量 函数 的 梯度 ? 当 它 是 亮度 值 时 ， 我 们 是 知道 如 何 计算 它 的 梯度 的 。 这 里 没有 
任何 区 别 。 将 一 个 水 平 集 看 作 是 等 亮度 线 ， 就 可 知 其 梯度 是 正 交 于 等 亮度 线 的， 由 此 ， 给 定 
梯度 向 量 时 ， 我 们 该 如 何 得 到 法 向 量 呢 ? iiss 


T 


G(x, y) - Iv. »),3 PS y) (8-4) 


BA, 法 向 量 恰好 (必然 地 ) 是 梯度 归 一 化 后 的 值 。 
G(x, y) 
IGG. y) 

因此 ， 我 们 可 以 将 轮廓 的 法 向 量 与 度量 函数 的 梯度 联系 起 来 。 也 可 以 将 轮廓 在 法 向 上 的 
移动 与 一 个 函数 (被 称 作 速 度 函 数 ) 联系 起 来 [9.46], 后 者 描述 度量 函数 值 以 多 快 的 速度 变化 ， 
并 可 得 到 对 这 个 变化 的 一 个 微分 表达 式 : 


spay soy (x,y) (8-6) 


其 中 ，s 是 个 与 问题 相关 的 速度 函数 ， 以 曲率 与 图 像 边缘 作为 它 的 参数 ， 与 公式 (8-2) 中 的 
定义 类 似 。 
有 多 种 方式 修改 度量 函数 的 方式 。 例 如 ， 可 以 采用 一 个 看 起 来 像 梯度 下 降 的 一 种 形式 
y" (x,y) =p" Gy) - aso yV yl, yl (8-7) 
或 者 是 看 起 来 像 微 分 方程 的 形式 ` 


n+l — n 
PEED VEY. sey 8) 


其 中 * 引 入 了 有 关 图 像 中 亮度 变化 的 某 个 量 ， 又 引入 了 等 亮度 线 在 +-，y 上 的 曲率 (Z4). 4 
然 ， 如 果 你 一 定 要 使 用 零 水 平 集 的 二 维 曲 率 ， 则 需要 将 曲率 与 函数 y 联 系 起 来 ， 后 者 幸好 不 是 
特别 难以 对 付 。 由 于 已 计算 出 了 法 向 量 ， 可 以 将 曲率 与 V 在 法 向 上 的 变化 量 联系 起 来 ， 因 此 
有 : 





n(x,y)- (8-5) 


xL Pas 72V AA uS (8-9) 
QUI +) 
这 里 去 掉 了 函数 标记 符号 。 
在 整个 算法 过 程 中 ， 度 量 函 数 按照 类 似 公式 (8-7) 的 规则 演变 。 随 着 它 的 演变 ， 会 在 不 
同 点 取 零 值 ， 而 这 些 点 正 是 定义 了 轮廓 的 演变 过 程 。 
在 实现 这 样 一 个 算法 时 ， 一 个 必须 要 考虑 的 有 趣 的 细节 是 ， 轮 廓 有 可 能 会 穿 过 它 自 身 。 





分 X 153 


Blin, JE EBHS-16BrzR SE EH OT. ARS FPR BEI R E re i Te 
典型 的 法 向 量 。 沿 着 位 置 最 低 的 点 上 的 法 向 量 ， 

前 进 一 个 单位 的 长 度 ， 会 使 新 的 轮廓 点 落 在 轮廓 

内 部 。 处 理 这 个 问题 有 一 个 很 简单 的 启发 式 方法 一 一 

已 标注 为 内 点 的 点 不 再 被 认为 处 于 轮廓 之 外 。 

对 自 适 应 轮廓 线 采用 水 平 集 的 想法 最 初 由 “图 8-16 轮廓 线 内 有 一 个 非常 尖锐 的 折 点 。 在 
Sethian[9.66，9.67] 提 出 。Malladi 等 [9.46] 观 察 到 折 点 附近 ， 沿 着 法 向 移动 一 个 单元 ， 
仅 考虑 一 组 靠近 当前 轮廓 线 的 点 有 很 多 优势 ， 从 会 使 新 的 轮廓 线 进入 原 轮廓 线 内 部 
而 扩展 了 这 个 想法 。Taubin 和 Ronfardf9.84] 隐 含 
地 使 用 了 水 平 集 的 概念 来 拟 合 分 段 线性 曲线 。Kimmel 等 [9.40] 则 论证 了 水 平 集 可 以 用 在 其 他 
事情 上 ， 如 寻找 最 短 曲 面 路 径 。 

并 非 所 有 采用 可 变形 轮廓 方法 的 算法 都 遵循 第 8.5 节 中 描述 的 策略 。 例 如 ，Lai 和 
Chin[8.33] 描 述 了 另 一 种 方法 ， 将 轮廓 点 看 作 是 随机 变量 序列 ， 从 而 可 以 用 一 个 马尔 科 夫 过 程 
来 描述 ， 并 采用 MAP 策 略 来 优化 。 尽 管 这 里 不 能 讨论 这 些 算 靶 ， 但 是 读者 可 以 从 本 章 末尾 列 
出 的 参考 文献 中 找到 相应 文章 。 


8.6 曲面 分 割 


在 距离 图 像 中 ，( 一 般 情况 下 ) 含有 许多 曲面 。 通 常 采用 两 种 策略 进行 曲面 分 割 。 第 一 种 
策略 ， 只 搜索 弯曲 速度 不 是 很 大 的 曲面 。 采 用 这 个 原则 得 到 的 算法 可 搜索 到 平滑 解 ， 且 该 算 
法 沿 着 高 曲率 曲面 的 线 进行 区 域 分 割 。 采 用 这 个 原则 的 一 个 例子 已 在 第 6 章 中 进行 了 讨论 ， 在 
那里 ， 我 们 描述 了 这 样 一 个 算法 ， 它 在 为 数据 点 搜索 最 佳 分 段 线性 拟 合 时 ， 可 去 除 噪声 。 这 
样 的 拟 合 等 价 于 用 一 组 平面 拟 合 一 个 曲面 。 平 面 之 间接 合 的 点 或 者 产生 “ 屋 硝 ”边缘 ， 或 者 
产生 “ 阶 跃 ”边缘 ， 这 取决 于 视点 。 如 果 采 用 了 类 似 MFA 的 退火 算法 ， 对 更 一 般 的 曲面 ， 可 
得 到 好 的 分 割 结果 ， 但 不 能 从 头 至 尾 执行 这 一 种 算法 ， 否 则 会 得 到 一 个 平面 解 [8.61]。 第 二 种 
关于 距离 图 像 的 分 割 策略 是 为 这 个 曲面 假定 一 些 方程 ， 例 如 二 次 曲面 (普通 的 二 阶 曲 面 ， 第 
8.6.1 中 有 定义 ) ,然后 令 所 有 满足 这 个 方程 且 相 互 邻近 的 点 都 属于 同一 个 曲面 。 这 种 策略 将 分 
割 问题 与 拟 合 问题 混合 起 来 ， 因 为 直到 得 出 某 种 分 割 [8.7，8.59] 结 果 时 ， 才 能 知道 在 估计 曲 
面 参数 时 应 使 用 哪些 点 。 在 下 一 节 ， 我 们 将 更 详细 地 讨论 这 两 种 策略 。 


8.6.1 曲面 描述 


我 们 经 常会 需要 对 数据 进行 曲面 拟 合 。Taubin 等 [8.68] 和 仔细 研究 了 对 数据 进行 曲面 拟 合 的 
问题 ， 并 首先 观察 到 多 项 式 曲面 是 非常 富有 吸引 力 的 ， 但 是 这 样 的 多 项 式 应 该 是 偶数 阶 的 。 
隐 式 方程 明显 地 更 具 吸 引力 ， 但 更 难以 拟 合 。 例 如 考虑 第 4 章 提 到 的 二 阶 形式 。 显 式 表 达 式 是 

z =ax° «by! +cxy+dx+ey+ f . (8-10) 

面 隐 式 表达 式 是 
ax? + by! +cz + dxy +exz+ fyz+ gx e hy «ize j=0 (8-11) 
AK (8-11) 的 表达 式 称 为 一 个 二 次 曲面 (quadric)， 它 是 描述 所 有 二 阶 曲 面 (圆锥 、 圆 球 、 
Fi. RSS) 的 通用 形式 。 第 5 章 中 已 经 学 习 了 如 何 通 过 最 小 化 均 方 误差 ， 用 一 个 显 式 函 
数 进行 数据 拟 合 。 不 幸 的 是 ， 显 式 函 数 形式 并 不 适用 于 z 为 高 阶 项 的 情况 。 可 以 采用 二 次 形式 
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解决 公式 (8-11) 中 的 z 项 ， 然 后 得 到 一 个 显 式 表 达 式 。 但 是 现在 右 式 有 一 个 平方 根 ， 因此 也 
就 不 可 能 采用 线性 方法 解 系数 向 量 。 
我 们 可 以 采用 隐 式 表达 式 ， 首 先 定义 f(x,y,z)max? + by’ e cz! + dry + exz + fyz+gx+hy 
+ 区 + 了 并 得 到 如 下 观察 结果 : WRAL, yo zj 在 参数 向 量 [a, b, c, d, e, f, g, h, 站 描述 的 曲面 
E, Bf Gu. yz 应 精确 等 于 零 。 我 们 定义 一 个 函数 的 水 平 信 为 一 组 点 集 De, ys zj"， 这 些 点 关 
于 某 个 标量 上 有 /Co, Yo z)=L。 这 样 ， 我 们 可 以 找到 最 小 化 E= (G2) (也 称 作 从 点 
(x; Yo z) 到 曲面 的 代数 距离 ) 的 系数 。 在 某 些 情况 下 ， 这 种 方法 可 以 得 到 很 好 的 结果 ， 但 这 并 
202] 不 是 我 们 真正 想 要 的 ; 真正 想 要 的 是 使 得 > dyz f(x,y,z)) 最 小 的 解 ， 其 中 4 是 某 种 距 
离 度量 ， 例 如 从 该 点 到 曲面 的 欧 氏 距 离 (被 称 为 到 曲面 的 几何 距离 [8.661])。 这 类 问题 又 一 次 
证 明了 是 难以 用 代数 方法 处 理 的 。( 关 于 实现 过 程 中 的 细节 可 参见 [8.67] 和 [17.37]。 ) 尽管 基于 
代数 距离 的 方法 在 大 多 数 时 候 工作 得 相当 好 ， 但 它们 也 必然 会 有 失败 的 情况 。 不 论 采用 哪 种 
距离 度量 方式 ， 它 都 应 该 具有 如 下 性 质 [17.37]: 1) 只 要 实际 的 (欧式 , 几何 ) 距离 为 零 ， 量 
测 结果 也 应 为 零 (代数 距离 满足 这 一 点 ) ; 2) 在 采样 点 上 ， 实 际 距离 与 量 测 距离 关于 参数 的 


导数 相等 。 
当然 ， 无 论 你 选择 了 哪 种 表达 方式 (多 项 式 是 最 常用 的 ) ， 始 终 希 望 它 具有 仿 射 不 变性 
[8.27]. i 


8.6.2 椭圆 及 椭 球 拟 合 


前 文 已 经 介绍 过 了 代数 距离 的 概念 ， 尽 管 本 章 讨论 的 是 曲面 拟 合 ， 但 可 以 首先 谈 谈 更 为 
简单 一 些 的 情况 ， 即 用 椭圆 来 拟 合 曲线 数据 ， 然 后 将 它 扩展 到 三 维 的 情况 ， 也 就 是 椭 球 拟 合 。 
关于 圆锥 曲线 的 通用 方程 可 用 来 描述 一 个 椭圆 : 

ax! +bxy+cy +dx+ey+f=0 (8-12) 


这 个 隐 式 方程 不 只 描述 了 椭圆 ， 还 描述 了 直线 、 双 曲线 、 抛 物 线 以 及 圆 。 同 时 ， 为 了 保证 结 
果 曲 线 是 个 椭圆 ， 我 们 必须 保证 它 满足 


b? -4ac «0 (8-13) 

为 满足 这 个 约束 条 件 ， 必 然 会 引出 一 个 非 线性 优化 问题 。 相 反 ， 如 果 我 们 找到 了 系数 4 -了 ， 
使 得 下 式 取 最 小 值 | 

D (ax? + buy, + ey? dx +ey, + f) (8-14) 


我 们 会 得 到 这 样 一 个 解 ， 它 试图 用 双 曲 线 张 来 拟 合 低 曲 率 区 域 ， 而 不 是 采用 椭圆 。 同 样 的 问 
题 在 试图 采用 椭 球 去 拟 合 距 离 数据 时 也 会 遇 到 。 具 体 细节 参见 Wang 等 [8.74] 、Rose 和 
West[8.50] 和 Fitzgibbon 等 [8.19]。 

在 执行 这 一 类 拟 合 时 ， 一 个 很 重要 的 问题 是 ， 需 要 和 弄 清 何 时 某 个 点 完全 变 成 了 “外 点 ”。 
也 就 是 说 ， 该 点 受到 了 大 噪声 的 影响 ， 使 得 实际 上 本 该 属于 当前 曲面 的 点 变 成 了 外 点 ， 或 者 
是 它 实 际 上 属于 另 一 个 被 遮挡 了 的 曲面 。Darrell 和 Petland[13.9] 研 究 了 这 个 问题 的 有 关 细 节 ， 
并 指出 了 采用 “M 佑 计 ” 可 得 到 极 好 的 分 割 结果 。Cabrera 和 Meers[8.11] 采 用 了 一 种 称 为 “ 自 

举 法 ”的 迭代 式 算 法 ， 该 算法 可 消除 椭圆 拟 合 中 受 外 点 影响 引起 的 偏差 。 
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如 何 用 一 个 函数 来 拟 合 数据 ， 还 取决 于 附加 在 数据 上 的 噪声 或 者 说 污染 的 性 质 。 如 果品 
声 是 加 性 的 、 零 均值 高 斯 分 布 (我 们 几乎 总 是 会 假设 这 样 一 个 函数 )， 则 最 小 垂直 距离 
(MMSE) 或 最 小 法 向 距离 (我 们 称 之 为 特征 向 量 线 拟 合 ) 方法 很 有 效 。 如 果 噪 声 不 是 高 斯 分 
布 的 ， 则 应 采用 其 他 方法 。 例 如 ， 核 医学 图 像 主要 是 被 计数 ( 泊 松 ，Poisson) 噪声 污染 。 泊 
松 品 声 与 高 斯 噪声 之 间 的 区 别 有 两 点 : 前 者 始终 为 非 负 ， 且 与 信号 相关 。 对 远离 零 的 点 泊 松 
噪声 可 以 用 加 性 高 斯 噪声 来 合理 建 模 ， 使 其 方差 等 于 信号 的 方差 。 其 他 传感器 会 引入 其 他 类 
型 的 噪声 。Stewart[8.64] 考 虑 了 内 点 和 外 点 两 种 情况 ， 但 假定 有 些 坏 数 据 随机 分 布 在 传感器 的 
动态 区 域内 ， 即 噪声 不 是 加 性 的 。 

给 定 一 个 分 割 结果 ， 是 否 应 该 合并 两 个 相 邻 区 域 ? 如 果 是 相 邻 的 且 在 某 种 噪声 度量 条 件 
下 满足 同样 的 方程 ， 它 们 应 该 合并 [8.8，8.29，8.34，8.56]。 其 他 关于 曲面 拟 合 的 相关 论文 包 
括 [8.4，8.75，8.781。 

实现 分 割 时 ， 采 用 什么 曲面 度量 方式 作为 基础 ， 是 遇 到 的 另 一 个 问题 。 对 于 这 个 问题 ， 
曲率 显得 尤其 引 人 瞩 目 ， 这 是 因为 曲率 观测 量 是 视点 不 变 的 。 但 是 ,“ 曲 率 估计 对 量化 噪声 非 
常 敏感 ”[8.71]。 


8.7 评估 分 割 质量 


至 此 ， 我 们 看 到 有 很 多 种 分 割 算法 及 其 变种 。 但 是 哪 一 种 最 好 呢 ? 有 谁 知 道 ?” 我们 需要 
一 个 算法 可 以 评估 分 割 的 质量 。 但 是 哪 一 个 是 最 好 的 评估 算法 呢 ” 我 们 还 需要 一 个 算法 来 评 
估 质 量 评估 算法 ， 但 是 哪 一 个 … (救命 啊 ! )。 

现 有 若干 个 方法 可 对 分 割 质量 进行 评估 。 由 于 分 割 的 一 个 结果 是 得 到 边缘 ， 因 此 可 以 通 
过 测量 边缘 位 置 ， 来 间接 地 推断 出 分 割 质量 。Pratt[5.33] 提 供 了 这 样 一 个 算法 。 

Bilbro 和 Snyder[8.6] 首 先 去 除 噪声 ， 然 后 对 去 噪 后 结果 拟 合 曲面 。 他 们 仅仅 考虑 了 去 噪 质 
量 ， 这 可 以 很 简单 地 测试 : 从 原始 图 像 中 减 去 分 割 后 的 干净 图 像 。 你 所 看 到 的 应 当 仅 有 噪声 。 
如 果 去 噪 算法 生成 的 是 一 幅 含 有 特征 的 图 像 ， 则 它 一 定 是 除了 噪声 外 还 去 除了 其 他 的 东西 。 

评估 一 个 亮度 图 像 的 分 割 质量 的 确 很 困难 ， 这 是 因为 ， 关 于 哪 种 答案 是 正确 的 ,不 同 的 观 
测 人 员 会 得 到 不 同 的 结论 。 不 过 ， 对 于 距离 图 像 ， 确 定 “ 真 值 ”会 稍微 简单 一 些 ， 因 为 可 以 
用 物理 方法 测量 曲面 。 

Hoover 等 [8.22] 提 出 了 如 下 形式 : 将 人 工分 割 的 图 像 作为 真 值 (ground-truth, GT), 5— 
幅 机 器 分 割 (machine-segmented, MS) 的 图 像 的 质量 作 比 较 。 令 MM 和 G 各 自 代 表 MS 以 及 GT 
EH; MX(i=1,…, m) 表 示 M 中 的 一 个 区 域 ; FG, 0G=1,…, m) 表 示 G 中 的 一 个 区 域 。|R| 代 表 区 域 
R 中 的 像素 个 数 。 令 Oj 是 同时 属于 MS 图 像 的 区 域 i 与 GT 图 像 的 区 域 j 的 像素 个 数 。 最 后 ， 令 T 
2j—^ BUA, 0.5«T«1.0. 

有 五 种 不 同 的 分 割 结 果 ， 定 义 如 下 : 

1)40, > TIMIB.O, > TIG| 时 ， 认 为 得 到 了 正确 的 分 类 。 

2) 当 GT 图 像 中 的 一 个 区 域 在 MS 图 像 中 分 裂 为 若干 区 域 时 , 称 为 过 分 审 (oversegmentation ) . 
形式 化 描述 如 下 : 给 定 GT 中 的 一 个 区 域 (i) 以 及 车 于 MS 中 的 区 域 01, P. …, 记过 分 割 符合 如 
下 情形 : 

a) MS 的 每 个 区 域 中 ， 至 少 100T 个 百分比 的 像素 实际 上 属于 GT 中 的 区 域 ，(O;;, > TI I VD. 
b) 至 少 100T 个 百分比 的 像素 实际 上 属于 区 域 :的 像素 被 标记 为 属于 区 域 ji, jj,…, ji, 的 
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并 集 ， (X O > Tlib. 


3) 当 GT 图 像 中 不 同 区 域内 的 像素 被 确定 为 属于 MS 图 像 中 的 同一 区 域 ， 则 称 为 大 分 割 
(undersegmentation )。 这 个 定义 与 过 分 割 的 定义 是 相互 对 应 的 ， 如 果 把 两 幅 图 像 的 位 置 互 换 ， 
就 变 成 过 分 割 了 。 

4) 当 GT 图 像 中 的 一 个 区 域 既 没有 正确 地 分 割 ， 又 不 是 过 分 割 或 从 分 割 中 的 一 部 分 ， 则 
称 为 错 分 类 (missed-classification ) 。 

5) RAD (noise classification) 的 定义 与 错 分 类 的 类 似 ， 除 了 所 关注 的 区 域 属 于 MS 
图 像 。 

如 果 是 距离 图 像 ， 可 通过 计算 GT 区 域 以 及 相应 MS 区 域 的 法 向 量 ， 计算 这 两 个 向 量 之 间 的 
大 角 的 绝对 值 来 进一步 比较 两 种 正确 的 分 割 结果 。 

根据 这 些 定义 ， 我 们 可 以 通过 对 正确 的 或 者 错误 的 分 割 结果 进行 计数 ， 并 得 到 关于 总 的 
角度 误差 的 观测 量 ， 来 评估 分 割 质 量 。 通 过 画 出 7 与 观测 量 之 间 的 关系 图 ， 并 比较 这 些 图 ， 可 
确定 有 关 分 割 性 能 的 一 个 观测 结果 。 

Hoover 等 [8.22] 采 用 了 以 上 方法 ， 对 四 种 不 同 的 距离 图 像 分 割 算法 ， 实 现 了 完整 的 质量 评估 。 


结论 


本 章 使 用 了 一 致 性 概念 来 辨识 一 个 区 域 的 分 量 。 在 我 们 研究 的 第 一 个 例子 中 ， 如 果 所 有 
的 像素 都 具有 同样 的 亮度 ， 则 它们 被 定义 为 属于 同一 个 区 域 。 在 第 8.6.1 节 的 例子 中 ， 所 有 满 
足 同 一 个 曲面 方程 的 点 被 定义 为 属于 同一 个 区 域 。 

第 8.2.1 节 中 ， 我 们 采用 了 一 种 优化 方法 〈 最 小 均 方 误 差 ) 来 寻找 最 优 阔 值 。 在 8.5 节 ， 我 
们 采用 主动 轮廓 线 原理 ， 并 通过 指定 一 个 针对 特定 问题 的 目标 函数 ， 并 最 小 化 该 函数 ， 来 获 
得 一 个 闭合 边界 。 任 何 适当 的 最 小 化 技术 都 可 以 采用 。 在 8A.5 节 中 ， 我 们 会 再 次 看 到 用 于 最 
大 后 验方 法 中 的 函数 最 小 化 过 程 (基于 梯度 下 降 法 ， 并 带 有 退火 过 程 )， 用 于 寻找 使 得 特定 的 
目标 函数 最 小 的 图 像 , 得 到 分 割 结果 。 


8.9 术语 
主动 视觉 active contour 
代数 距离 algebraic distance 
连通 分 量  . connected component 
显 式 explicit form 
几何 距离 geometric distance 
直方 图 histogram 
均匀 的 homogeneous 
mx implicit form 
标号 图 像 label image 
法 向 normal direction 
过 分 割 overségmentation 


二 次 曲面 quadric 
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区 域 增长 region growing 

显 着 点 salient point 

分 割 segmentation 

蛇 形 线 算法 snake 

曲线 速率 speed of a curve 
mae tk thresholding 
RAI undersegmentation 
作业 8.1 


Haralick 和 Shapiro[4.18] 中 第 2.3.5 节 描述 了 一 种 标号 算法 ， 与 本 文 介绍 的 标号 方法 有 一 些 
类 似 的 地 方 。 请 对 二 者 之 间 的 差异 进行 比较 。 考 虑 以 下 因素 : 1) 实现 一 个 单 处 理 器 
(uniprocessor) 的 简易 性 〈 代 码 的 简易 性 ) ; 2) 在 单 处 理 器 上 的 执行 速度 ; 3) 并 行 化 实现 的 
可 能 性 。 


表 8-2 BRR 
位 置 0 1 2 3 4 5 6 7 8 9 
内 容 0 0 2 2 4 4 2 4 2 2 








作业 8.2 


在 执行 连通 分 量 标 号 方案 的 过 程 中 ， 在 察看 某 一 个 点 时 ， 查 找 表 如 表 8-2 所 示 。 
现在 ， 我 们 发 现 了 如 下 等 价 关 系 : 9 = 7。 请 在 表 8-2 中 的 空白 行 ， 写 出 处 理 完 该 等 价 关 系 
后 查找 表 的 内 容 。 


专题 8A 分割 


到 目前 为 止 ， 本 章 考 虑 的 问题 是 如 何 将 图 像 划 分 为 相互 之 间 在 亮度 或 者 深度 上 有 某 种 区 
别 的 区 域 。 不 过 ， 对 于 可 用 来 表征 像素 ,或 者 像素 邻近 区 域 的 任意 特征 ， 前 面 所 描述 的 算法 
都 是 适用 的 。 由 于 这 个 原因 ， 这 里 将 讨论 一 些 其 他 可 采用 的 度量 方式 ， 包 括 纹 理 、 颜 色 以 及 
运动 。 本 节 也 将 提 到 其 他 的 分 割 方法 ， 如 基于 边缘 的 分 割 方法 。 


8A.1 纹理 分 割 


在 第 4A.2.2 节 中 ， 对 纹理 进行 了 讨论 。 如 果 能 够 对 纹理 的 概念 进行 量化 一 为 了 区 分 两 种 
不 同 的 纹理 ， 分 别 赋予 它们 两 个 不 同 的 值 一 一 那么 纹理 也 可 以 作为 特征 ， 在 分 割 算法 中 使 用 。 
"i 不 再 把 具有 相似 的 亮度 定义 为 相 邻 ， 而 是 用 具有 相似 的 纹理 定义 ， 还 可 以 将 颜色 与 纹 

结合 起 来 [8.46，8.65]。 

一 些 研究 人 员 已 注意 到 实际 上 有 两 种 根本 不 同 的 纹理 类 型 ， 一 种 在 某 种 意义 上 是 “确定 
的 ”"、 而 另 一 种 则 在 菜 种 意义 上 是 “随机 ”的 ， 理 论 上 可 以 用 马尔 科 夫 随机 场 来 建 模 [8.21。 
Liu 和 Picard[8.38] 以 及 其 他 人 [8.20，8.21，8.58] 发 现 伟 里 叶 变 换 的 峰值 有 助 于 理解 两 种 纹理 特 
征 之 间 是 怎样 区 分 的 。 
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表 8-3 在 分 形 维度 的 计算 中 用 的 二 等 分 














n 0 1 mE 2 n 
i 1/2 1/4 1/2" 
M, . 1 2 4 2 
表 8-4 分 形 维度 
n 0 1 2 n 
1 1/2 1/4 1/2 
M, 1 4 16 2? 








分 形 维度 

分 形 维度 《Fractal dimension) 是 关于 一 个 形状 在 不 同 尺 度 下 量 测 自 相似 性 时 的 一 种 度量 。 
这 种 度量 方式 可 以 提供 一 个 关于 前 最 区 域 中 〈 可 假定 为 感 兴趣 的 目标 ) 点 的 空间 分 布 的 度量 。 
为 了 了 解 分 形 维度 的 用 法 ， 可 以 设想 一 个 二 维 空间 内 的 点 集 S， 并 定义 S 的 分 形 维度 为 


dimC9) = lim 08M: 


«+0 log(1/ £) (8-15) 


其 中 ，M, 是 覆盖 5 所 需 e x e 方 格 的 个 数 。 现 在 举 一 些 例子 来 看 看 它们 的 分 形 维度 ， 首 先 从 单个 
点 开始 。 很 显然 ， 一 个 方 格 即 可 以 完全 覆盖 一 个 点 ， 与 方 格 的 大 小 无 关 。 因 此 ， 在 公式 (8-15) 
H, M 总 是 等 于 1， 而 分 母 的 极限 为 无 穷 大 。 因 此 ， 我 们 得 到 一 个 点 的 分 形 维度 为 零 。 现 在 ， 
考虑 一 条 单位 长 度 直 线 。 很 明显 ， 这 样 的 一 条 直线 应 由 一 个 1 x 1 的 方 格 来 覆盖 。 但 是 ， 它 也 
可 以 用 两 个 方 格 来 覆盖 ， 每 个 方 格 大 小 为 112 x 1/2， 或 者 4 个 方 格 ， 每 个 方 格 大 小 为 1/4 x 1/4。 
每 次 方 格 大 小 减 半 ， 所 需要 的 方 格 个 数 则 加 倍 。 我 们 将 这 个 过 程 按 参 数 " 制 成 表格 ，" 等 于 已 
完成 的 二 等 分 次 数 ( 见 表 8-3 ) 。 

根据 表 8-3， 我 们 可 以 按 下 式 估 计 dim(9) 
dim(S) = im log2 
um log(1/(1/2))" 
最 后 ， 令 5 为 一 个 方形 区 域 ， 为 了 不 失 一 般 性 ， 令 其 边 长 为 一 。 我 们 可 以 用 单个 1 x 1 的 方 格 来 
覆盖 它 ， 或 者 4 个 1/2 x 1/2 方 格 ， 或 者 16 个 1/4 x 1/4 方 格 ， 等 等 。 

从 表 8-4 可 以 看 出 ， 其 分 形 维度 为 


(8-16) 


2n 
im — 1082" — pir 1082” lim2 9 (8-17) 
no Jog(1/(1/2))" == Jog2” n> n 


因此 ， 最 后 我 们 可 以 得 出 一 个 直观 上 非常 吸引 人 的 结果 : 单个 点 是 零 维 物 体 ， 一 条 直线 是 一 
维 物 体 ， 而 方形 是 二 维 的 。 至 少 ， 这 里 得 出 的 关于 这 些 简 单 形状 的 结果 ， 与 直觉 知识 是 一 
致 的 。 

给 定 一 幅 图 像 ， 关 于 如 何 将 公式 (8-15) 应 用 到 离散 的 像素 域 ， 我 们 必须 给 出 某 种 起 法。 
这 是 因为 我 们 很 显然 不 可 能 使 有 界 方 格 的 大 小 比 e=1 还 要 小 。 求 解 方程 (8-15) 中 的 M, ， 我 们 
发 现 对 一 个 小 的 e 


dim(S) = 


log M, = (toe(-*)] aims) (8-18) 
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方程 可 简写 为 

log M, = -(logs)dim(S) (8-19) 
因此 ， 对 一 个 小 的 :，M, TBS eB AER AR. SRR ASHE. Mita et 
虑 我 们 拥有 的 的 两 个 最 小 值 (1 和 2) 来 估计 出 5 的 维度 ， 并 使 用 如 下 公式 计算 出 该 斜率 

log M, - log M, " log M, - log M, 


攻关 由 mw (8-20) 
TIN addu log2 


这 样 可 生成 一 个 简单 算法 : 找到 M,， 即 覆盖 对 象 所 需 的 1 x 1 方 格 的 个 数 ， 这 也 就 是 用 像素 来 
量 测 目标 时 的 面积 大 小 。 找 到 M,， 即 覆盖 同一 个 对 象 所 需 的 2 x 2 方 格 的 个 数 ， 并 取 各 自 对 数 
之 间 的 差 。 
考虑 如 下 例子 。 如 图 8-17 中 的 左 图 ， 其 前 景区 域 面积 为 36， 可 以 被 9 个 2 x 2 方形 覆盖 因此 ， 
它 的 分 形 维度 为 (log36 一 log9)/10g2=2。 右 图 中 的 前 景区 域 与 左 图 中 的 前 景区 域 面 积 大 小 相同 ， 
但 需要 12 个 2 x 2 方形 来 覆盖 ， 因 此 其 分 形 维度 为 (log36 — log12)/log2=1.58. 
Coo oo | 













































































图 8-17 左 图 的 分 形 维度 为 2.0， 右 图 的 分 形 维度 为 1.58。 右 图 中 ， 
用 黑色 线 框 描 出 了 覆盖 前 景区 域 的 2 x 2 方形 


分 形 维度 的 概念 可 以 扩展 至 灰 度 图 像 ， 也 可 以 扩展 至 以 这 种 度量 方式 抽取 的 灰 度 图 像 特征 [8.12]。 
8A.2 使 用 边缘 的 图 像 分 割 


实现 分 割 的 一 种 方式 是 利用 连通 分 量 算法 ， 但 需要 假定 有 一 些 特殊 的 点 不 与 任何 点 相连 ， 
边缘 点 就 是 这 种 点 的 例子 [8.75]。 

使 用 边缘 分 割 时 通常 遇 到 的 问题 是 边缘 检测 。 正 如 大 家 所 熟知 的 ， 边 缘 检测 时 既 容易 产 
生 额 外 的 边缘 又 容易 丢失 部 分 边缘 ， 从 而 造成 边缘 缺口 。Jacobs[8.24] 针 对 这 个 问题 提出 了 一 
种 很 有 趣 的 方法 。 他 首先 根据 边缘 定义 了 一 个 “可 接受 区 域 ”， 要 求 区 域 是 凸 的 且 区 域 边界 上 
的 边缘 集合 大 部 分 是 真实 测量 的 ， 而 不 是 推断 出 的 。 换 名 话说， 任意 两 个 点 集 之 间 ， 我 们 都 
可 以 假定 边缘 是 存在 的 。 但 是 ， 如 果 某 个 特定 的 点 集 是 连通 的 ， 只 有 少许 缺口 ， 且 这 些 缺 品 
加 起 来 比 起 区 域 周 长 要 小 ， 则 我 们 可 以 相信 这 样 一 个 区 域 ， 也 就 是 显著 群 (salient group), Æ 
真实 存在 的 。Jacobs 提 出 了 一 些 非 常 精巧 的 启发 式 规则 ， 简 化 了 对 可 能 区 域 的 组 合 搜索 过 程 ， 
使 得 这 一 过 程 相当 容易 控制 。 

第 11 章 中 描述 的 Hough 变 换 ， 提 供 了 另外 一 种 识别 边缘 片断 的 方法 ， 可 以 处 理 部 分 边缘 缺 
失 的 情况 。 
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8A.3 jeans Bl 


如 果 能 够 确定 所 有 具有 相同 运动 特性 的 连通 像素 ， 则 可 以 应 用 前 面 讨论 过 的 连通 分 量 方 
法 。 尽 管 有 些 论 文 非常 强调 运动 分 割 算法 一 -Patras 等 [8.47] 采 用 了 分 水 岭 方法 和 一 个 多 步 分 
割 方 法 一 一 但 是 对 任 一 运动 分 割 算法 来 说 ， 都 是 以 找到 有 效 的 检测 和 表达 运动 的 方法 为 基础 
的 ， 这 是 非常 重要 的 。 

有 大 量 的 研究 工作 致力 于 解决 如 何 表达 图 像 运 动 特征 的 问题 。 对 此 ， 我 们 将 在 第 9A.3 节 
进行 更 详细 的 讨论 。 
8A.4 颜色 分 割 


正如 纹理 变化 可 用 于 实现 分 割 ， 颜 色 变化 也 可 用 于 分 割 。 基 于 颜色 变化 的 分 割 ， 包 括 提 
出 一 个 最 优化 问题 然后 最 小 化 一 个 目标 函数 。 于 是 ， 使 得 目标 函数 最 小 的 图 像 就 是 分 割 结果 。 
Liu 和 Yang [8.36] 使 用 模拟 退火 方法 来 搜索 一 个 好 的 颜色 分 割 结果 。 豪 类 是 另 一 种 方法 [8.72]， 
关于 聚 类 方法 将 在 第 15 章 中 进行 简略 描述 。 


8A.5 使 用 MAP 方 法 的 分 割 


1991 年 ，Snyder 等 [8.63] 发 现 有 一 种 非常 简单 直接 的 方式 ， 只 要 已 知 每 个 类 的 亮度 的 均值 
或 者 还 有 方差 .就 可 以 将 一 个 复原 问题 转化 为 一 个 分 类 问题 [8.39，8.63]。2000 年 ， 研 究 者 使 
用 变 分 方法 也 推出 了 同样 的 结论 [8.53]。 为 了 将 一 幅 图 像 表 面 “分 类 ”为 不 同 的 类 ， 即 ， 不 同 
的 区 域 ， 我 们 可 以 使 用 与 解决 图 像 复原 问题 时 相同 的 MAP 方 法 。 

为 了 使 用 MAP 方 法 ， 只 需 修改 先 验 项 ， 以 便 将 期 望 亮度 包括 进去 。 举 个 例子 ， 假 设 我 们 
具有 先 验 知识 ， 认 为 一 幅 图 像 应 该 在 除了 阶 跃 不 连续 处 之 外 都 是 平滑 的 ; 另外 ， 每 个 像素 值 
都 只 能 取 三 种 亮度 中 的 一 个 (比如 ， 脑 疹 髓 液 (黑色 )、 脑 白质 以 及 脑 灰质 )。 则 在 第 ;个 像素 
处 的 亮度 值 等 于 其 邻 域 亮 度 值 ， 或 者 等 于 kh 、k 或 时 ， 如 下 先 验 项 取 最 大 。 


AA=> QP ~ FY G- kY -uÝ bY) (821) 


关于 进一步 的 讨论 ， 可 参考 Zhu 和 Yuille[8.80]， 该 文中 表明 几 个 相似 的 算法 可 结合 起 来 。 此 外 ， 
他 们 还 举例 说 明了 多 种 图 像 表 达 方 式 之 间 的 关系 。 


8A.6 人 如 何 完 成 分 割 


有 关 分 割 ， 还 有 一 个 问题 ， 我 们 很 遗憾 没有 更 多 时 间 在 本 书 中 进行 描述 。 这 个 问题 就 是 人 
是 如 何 完成 分 割 的 。 即 什么 是 “正确 的 ”分 割 ? 例如，Koenderink 和 van Doorn [8.28] 观 察 到 人 
在 进行 分 割 时 会 倾向 于 将 三 维 物体 的 投影 理解 为 多 个 椭圆 的 集合 。 有 关内 容 可 参见 [8.57]。 
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第 9 章 形 K 
Space tells matter how to move, and matter tells space to get bent. 
E Douglas La 

在 本 章 中 ， 假 定 我 们 已 经 对 图 像 进行 了 成 功 的 分 割 ， 接 下 来 探讨 一 下 如 何 描述 分 割 得 到 
的 区 域 。 我 们 首先 考虑 二 维 区 域 ， 假 定 区 域内 的 像素 取 值 为 1， 区 域外 的 像素 取 值 为 0， 并 假 
定 每 次 只 处 理 一 个 区 域 。 这 些 假 定 是 合理 的 ， 因 为 在 学 习 连 通 部 件 标号 (connected 
component labeling) 时 ， 我 们 已 经 学 会 了 实现 这 些 假定 的 方法 。 

在 对 图 像 进行 分 割 的 过 程 中 ， 计 算 机 对 区 域内 的 每 个 像素 进行 区 域 增长 操作 (region 
growing operation )。 在 这 一 过 程 中 ， 计 算 机 可 以 很 容易 地 跟踪 区 域 的 面积 。 面 积 是 一 个 物体 
区 别 于 其 他 物体 的 众多 特征 之 一 。 例 如 ， 在 图 像 中 ， 连 杆 通常 比 活 塞 占据 更 大 的 面积 (或 者 
说 ,覆盖 了 更 多 的 黑色 像素 )。 这 样 ， 通 过 度量 区 域 的 面积 ， 就 可 以 识别 物体 的 类 别 。 


9.1 线性 变换 

本 章 我 们 要 讨论 的 话题 之 一 是 区 域 对 线性 变换 的 不 变性 。 假 定 区 域内 的 每 个 像素 都 用 其 
二 维 坐 标 *, ?构成 的 二 维 向 量 来 表示 ， 而 变换 就 作用 在 这 些 二 维 向 量 上 。 首 先 ， 让 我 们 来 看 一 
下 如 下 的 正 交 变换 : 


cosÜ -sinO 
[aro cos 


它 作用 于 区 域内 像素 的 原 坐 标 生 成 新 的 坐标 。 例 如 ， 


其 中 : 定 义 如 上 ， 表 示 绕 z 轴 的 旋转 。 给 定 一 个 区 域 *， 我 们 可 以 很 容易 地 构造 一 个 矩阵 $， 
5S 中 的 每 一 列 对 应 s 中 某 个 像素 的 坐标 x, ?>。 例 如， 给 定 区域 * = {(1.2), (3,4), (1,3), (2.3)} ， 对 应 
的 5 矩阵 就 是 
1312 
s-|, 4 3 3 


通过 算 阵 乘 法 我 们 可 以 把 正 交 变 换 作用 于 整个 区 域 ， 例 如 作 如 下 的 旋转 变换 : 
cos@ xo | 3 1 ; 


2.4233 


S'zRS-|. 
sinO  cos@ 


用 这 种 形式 表示 旋转 变换 很 方便 ， 但 如 何 表示 平移 变换 呢 ? 为 了 表示 平移 变换 ， 我 们 通 
过 增加 一 行 和 一 列 来 增 广 变换 矩阵 ， 除 右 下 角 元 素 为 1 外 ， 其 他 新 增 元 素 均 为 0。 增 广 后 的 新 
矩阵 如 下 : 
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.[cos0 -sin@ 0 
R,-|sinü cosg 0 


0 0 1 


同时 我 们 在 每 个 点 的 坐标 后 增加 一 个 1， 使 得 二 维 坐 标 (x, y) 变 为 


x 








y 
1 


RE, RA SE RTLUH MEERE, PERERA EERE (homogeneous 
transformation matrix )。 通 过 改变 和 矩阵 第 三 列 的 元 素来 描述 平移 ， 我 们 就 可 以 做 到 这 一 点 了 。 例 
如 ， 如 果 一 个 点 绕 原 点 旋转 89， 沿 x 轴 和 y 轴 分 别 平移 dx 和 dy， 就 可 以 用 如 下 的 什 阵 乘法 来 表示 : 
cos@ -sinO dx][x 
sinô cos@ dylly 

0 0 1 1|1 


到 目前 为 止 ， 我 们 可 以 用 一 个 矩阵 乘法 来 描述 图 像 平面 内 的 旋转 ( 即 绕 z 轴 的 旋转 ) 和 平 
面 内 的 平移 。 上 述 变换 同属 于 一 类 变换 ， 这 类 变换 被 称 为 “相似 变换 ”(similarity 
transformation ) 。 相 似 变换 的 特征 是 只 改变 物体 的 位 置 ， 不 改变 物体 的 形状 。 

那么 我 们 又 如 何 表示 平面 外 的 旋转 呢 ? 为 了 回答 这 个 问题 ， 我 们 需要 先 定义 仿 射 变换 
(affine transformation )。 仿 射 变换 把 一 个 二 维 向 量 x = [x, y]" 变 换 成 另 一 个 二 维 向 量 x' = [x y] : 

x'=Ax+b mE (9-2) 

其 中 5 也 是 一 个 二 维 向 量 。 这 一 变换 看 上 去 与 上 文 提 到 的 相似 变换 差不多 ， 但 是 这 里 不 要 求 
4 是 正 交 矩阵， 只 要 4A 是非 奇 异 矩 阵 即 可 。( 本 节 R, 的 非 增 广 定义 是 4 的 一 个 特例 ， 它 是 正 交 和 矩阵 。 
一 一 译 者 注 ) 仿 射 变换 会 改变 区 域 的 形状 。 如 图 9-1 所 示 ， 仿 射 变换 可 能 会 产生 剪 切 形变 。 


E 


仿 射 变换 非 仿 射 变换 
S1 DATA AMSLUN. MEREDT, RRA RENIE 
可 能 你 已 经 意识 到 了 ， 平 面 物体 在 图 像 平 面 外 的 转动 相当 于 对 物体 进行 仿 射 变换 。 这 给 


了 我 们 一 个 考察 平面 外 转动 的 视角 ， 尽 管 这 一 视角 还 非常 有 限 。 如 果 一 个 物体 几乎 位 于 同一 
平面 上 ， 平 面 外 旋转 的 角度 又 不 大 ， 也 就 是 说 没有 出 现 遮挡 ， 那 么 我 们 可 以 用 二 维 的 仿 射 变 








x= (9-1) 














_ 换 来 表示 这 一 三 维 运动 。 例 如 ， 图 9-2 给 出 了 几 幅 飞机 的 图 片 ， 它 们 互 为 彼此 的 仿 射 变换 。 


XX € 


图 9-2 互 为 仿 射 变换 的 飞机 图 片 ( 引 自 [9.1]) 
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经 过 平移 校正 后 ， 仿 射 变换 中 的 二 维 矩 阵 可 以 分 解 成 各 种 变换 的 组 合 一 旋转 、 缩 放 和 前 切 : 
a d]l[x cos@ sinü][a O][1 B]|[x 
i ial RES bone sus |o 5 l TH (953) 

那么 ， 我 们 如 何 应 用 这 些 变换 的 概念 呢 ? 我 们 可 以 通过 逆 变 换 对 变换 进行 校正 ， 并 对 准 
物体 ， 这 将 有 助 于 对 物体 形状 的 分 析 。 例 如 ， 我 们 通过 校正 平移 变换 可 以 把 物体 的 重心 移 到 
原点 处 ,通过 校正 旋转 变换 可 以 使 物体 的 主轴 与 坐标 轴 重合 。 

通过 特定 的 线性 变换 可 以 找到 物体 的 主轴 ， 这 种 线性 变换 可 以 把 物体 (或 物体 边界 ) 的 
协 方差 矩阵 变换 成 单位 阵 。 这 种 变换 涉及 白化 变换 (whitening transformation) 和 K-L 变 换 。 
不 幸 的 是 ， 一 旦 对 区 域 进行 了 这 样 的 变换 ， 区 域内 点 与 点 之 间 的 欧 氏 距离 就 被 改变 了 。 

在 上 一 段 中 出 现 了 “距离 ”这 个 词 。 通 常人 们 会 认为 “距离 ”就 是 指 “ 欧 氏 距 离 "， 但 在 
本 书 中 ,“ 距 离 ”一 词 会 多 次 出 现 并 有 几 种 不 同 的 含意 。 因 此 ， 我 们 有 必要 对 这 一 概念 进行 更 
严格 的 定义 。 欧 氏 距 离 只 是 度量 (metric) 的 一 种 。 只 要 满足 如 下 条 件 就 可 以 称 为 度量 : 

ed(a,a)=0 Va 
*d(a,b)-d(b,a) (a,b) 
*d(a,b)*d(b,c) 2d(a,c) (a,b,c) 


在 后 面 的 章节 中 ， 我 们 将 有 机 会 考察 儿 种 不 同 的 度量 。 
9.2 基于 协 方差 矩阵 的 变换 方法 


考察 图 9-3 中 点 的 分 布 。 每 个 点 的 位 置 都 可 以 用 一 对 有 序数 对 (x1, xe RH Fon Soo 
都 不 足以 描述 点 的 位 置 。 

现在 让 我 们 来 看 一 下 图 9-4。 在 这 幅 图 中 显示 了 两 条 新 的 坐标 轴 y 和 > 。 同 样 的 ， 有 序数 
对 (yi y2) 可 以 精确 地 描述 点 的 位 置 。 但 在 大 多 数 情况 下 ，y 的 值 都 接近 于 0 (与 > 的 值 相 比 )。 
这 样 ， 如 果 我 们 丢掉 y, 而 仅 用 标量 y, 来 描述 点 的 位 置 ， 损 失 的 信息 就 比较 少 。 我 们 的 目标 是 如 
何 找到 最 优 的 y, 轴 和 y, 轴 。 


X2 
» 





x, 


图 9-3 一 个 近似 于 椭圆 的 区 域 图 9-4 旋转 原 坐 标 轴 得 到 的 新 坐标 系 ， 新 坐标 
系 中 一 个 坐标 就 可 以 很 好 地 描述 数据 


9.24 K-L 展 开 的 推导 
设 x 是 d 维 空间 的 随机 向 量 。 我 们 可 以 用 一 组 基 向 量 来 描述 x， 即 用 如 下 方式 表示 x: 
d 
tm oi (9-4) 








BS 
SS 
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这 里 的 向 量 b, 是 确定 的 ， 更 通俗 地 说 ， 可 以 是 预先 指定 的 。 因 为 任何 一 个 随机 向 量 x 都 可 
以 用 同一 组 的 d 个 向 量 B，(i = 1,…, q) 来 表示 ， 因 此 我 们 说 向 量 集 b; 张 成 了 x 所 在 的 空间 ， 并 把 
这 组 向 量 称 为 x 的 一 组 基 向 量 。 为 了 进一步 利用 基 向 量 ， 我 们 要 求 9: 

1) 基 向 量 b, 之 间 线性 无 关 ; 

2) 基 向 量 b, 之 间 两 两 正 交 (并 且 基 向 量 为 单位 向 量 一 - 译 者 注 )， 即 


1 fl G=) 
aby =f, (i=j) (93) 
这 样 一 来 ， 我 们 就 可 以 得 到 x 在 b, 上 的 投影 了。 投影 的 定义 如 下 : 
y= bi x(i =1,---,d) (9-6) 
我 们 令 
了 = Di (9-7) 


在 这 里 ， 我 们 称 ” 为 xz 在 基 向 量 记 上 的 投影 。 

如 果 我 们 想 丢 掉 y 向 量 的 一 些 分 量 ， 仅 保留 m(m<q) 个 分 量 ， 并 用 这 m 个 分 量 (被 称 作 主 分 
量 ) 来 表示 x， 尽 管 这 种 表示 是 有 误差 的 。 假 定 我 们 用 投影 法 计算 出 y 的 前 m 个 分 量 ， 其 余 的 分 
量 取 常量 ， 就 生成 了 一 个 对 x 的 估计 : 


ZR + Sas, (9-8) 
EBA (9-8) 中 ， 由 于 我 们 用 常量 a; 取代 了 ?的 一 些 分 量 而 引入 了 如 下 的 误差 : 
Ax=x-X 
-| yib; + Sea] | 
; 2 i=m+1 (9-9) 
= Sb, - a), 


既然 我 们 把 xz 看 作 随机 向 量 ， 那 么 误差 Ar 也 是 随机 向 量 。 我 们 可 以 用 Ar 的 模 的 期 望 来 评价 
这 种 表示 的 近似 效果 : 


d 


&'(m)- zl 5 $ G; - QB Cy; E 


io jmd (9-10) 
- HY S.0,- a, - 0,)b",} 
我 们 注意 到 y 是 标量 ， 同 时 利用 公式 (9-5)， 可 以 得 到 : 
e2(m) = slo -a,y) (9-11) 
为 找到 a MHL, BARAT o, 的 极 小 值 : 
Ac" gor EO -a,9)  -Eb) -a) «0 | (912) 


O 通常 情况 下 并 不 要 求 基 向 量 正 交 ， 只 要 不 平行 即 可 ， 但 在 这 里 ， 我 们 要 求 基 疝 量 正 交 。 
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得 到 结果 如 下 : 
a, = EQy,} = b E(x) (9-13) 
因此 ， 用 ?的 一 些 分 量 的 期 望 值 来 代替 相应 分 量 的 实际 值 ， 可 以 得 到 最 优 的 近似 效果 一 一 
在 这 一 点 上 ， 数 学 推导 和 我 们 的 直觉 是 吻合 的 。 
把 公式 (9-13) 代入 公式 (9-11)， 得 到 : 
em) = Y Elo; - EG] (9-14) 
把 公式 (9-6) 代入 公式 (9-14), 43: 
&^(m)- y E[(b; x - E{b; x)).] 


i=m+] 


= 3, EK x - Eb xy) b - EG by] (9-15) 
- > Eb; (x - EXx})(x" - E{x"})B,] 


公式 (9-15) 可 以 改写 成 : 
e*(m) = X b E(x - Ex) - EG)" Jb, (9-16) 


我 们 看 到 公式 (9-16) 中 在 1 之 间 的 部 分 是 x 的 协 方差 矩阵 : 


d 
€ (m) = Y 5 kb (9-17) 
可 以 证 明 ， 使 公式 〈9-17) 取得 最 小 值 的 向 量 b, 满足 : 
K,b, = Àb, (9-18) 
也 就 是 说 ， 最 优 的 基 向 量 就 是 K, 的 特征 向 量 。 在 后 文中 ， 我 们 将 结合 直线 拟 合 的 例子 证 
明 这 一 点 。 
y 的 协 方差 矩阵 很 容易 与 玉 , 建 立 联系 : 


K, = E(y - EHO - E] (9-19) 
= B'K,B (9-20) 
ix HLBABPERS PIS] ak HE LD, bp, ..., 0. 组 成 。 
进一步 的 ， 若 B 由 ,的 特征 向 量 组 成 ， 则 B 将 把 K, 变 成 对 角 阵 : 
À 0 - 0 
0 A, … 0 
Ks an (9-21) 
0 0 … A, 
把 公式 (9-21) 代入 公式 (9-17) 得 到 : 
£'(m)- Saab, (9-22) 


imm+l 


HA A EC: 
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d 
&'(m)- Ñ Abjb,: (9-23) 
X. Bib; 正 交 得 : 
d 
e(m)= SA, (9-24) 


这 样 ， 我 们 就 可 以 用 一 个 m 维 向 量 y 来 表示 一 个 d 维 向 量 x (m<d): 
y=bx (9-25) 


其 中 4b; 是 x 的 协 方差 算 阵 的 特征 向 量 。 
随机 向 量 在 其 协 方差 矩阵 的 基 向 量 上 展开 被 称 为 “K-L 展 开 `。 


9.2.2 K-L 展 开 的 性 质 


不 失 一 般 性 ， 我 们 把 特征 向 量 b; 按照 其 对 应 的 特征 值 的 大 小 排序 ， 即 ， 给 特征 向 量 标明 
下 标 以 使 其 对 应 的 特征 值 满 足下 式 : 
) 23. > 和) oh, (9-26) 


然后 ， 我 们 把 与 入 相对 应 的 b, 称 作 “ 主 特征 
向 量 ”。 


用 超 椭 球 描述 数据 

如 果 我 们 认为 x 对 应 的 数据 点 分 布 在 一 个 超 椭 
球 上 ， 那 么 它 的 主轴 将 通过 数据 的 重心 ， 且 主轴 
的 方向 与 K, 的 最 大 特征 值 对 应 的 特征 向 量 一 致 ， 
如 图 9-5 所 示 。 这 样 ，K-L 变 换 用 椭圆 拟 合 二 维 数 
据 ， 椭 球 拟 合 三 维 数据 ， 超 椭 球 拟 合 更 高 维 的 数 ”图 9-5 一 个 协 方差 矩阵 可 以 想像 成 代表 一 个 超 椭 球 ， 
据 。 它 的 特征 向 量 与 超 椭 球 各 主轴 的 朝向 一 致 ， 
用 直线 拟 合 数据 它 的 特征 向 量 的 平方 根 对 应 各 主轴 的 长 度 


考虑 随机 向 量 x 的 一 个 样本 集 : 








GG 21,2) (9-27) 


我 们 想 找到 一 条 最 能 代表 这 些 数据 的 直线 。 首 先 ， 我 们 把 原点 移 到 数据 集 的 重心 。 然 后 ， 
我 们 用 顾 线 方向 的 单位 向 量 n 来 表示 所 求 的 直线 。 这 样 ， 对 于 每 一 个 数据 点 x;， 从 数据 点 x 到 最 
优 拟 合 直线 间 的 垂直 距离 就 等 于 那 一 点 在 垂 线 方向 x 上 的 投影 。 我 们 用 d; (n) 来 表示 这 个 距离 : 


d; (n) = (n'x,y (9-28) 
为 找到 最 优 的 拟 合 直线 ， 我 们 求 垂 直 距 离 平 方 和 的 最 小 值 : 


ans d; (n) = . (n'x,)|- Ss (nx, (x]n) =n" Y xx, |n (9-29) 


在 满足 n 是 单位 向 量 的 约束 下 ， 我 们 求 上 式 的 最 小 值 : 
n'n=1 (9-30) 
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我 们 用 拉 格 朗 日 乘 子 来 求解 约束 条 件 下 的 最 小 化 问题 : 
n(Y xa )n- nn - n (9-31) 


X S- V ,xx ， 对 ma 求 偏 微分 : 
2 (T $n - Ai n - 1) (9-32) 


对 二 次 型 wrSn 求 偏 微分 ， 我 们 得 到 2Sn， 令 偏 微分 等 于 零 得 到 : 
2Sn-2An=0 (9-33) 

这 与 我 们 前 面 提 到 的 特征 值 问题 相同 。 因 此 我 们 得 到 如 下 结论 

最 优 拟 合 直 线 经 过 数据 集 的 均值 点 ， 并 会 落 在 数据 集 的 协 方差 给 阵 的 主 特 征 向 量 的 方向 上 。 

到 现在 为 止 ， 我 们 已 经 见 到 了 两 种 寻找 最 优 拟 合 直线 的 方法 : 一 是 5.3 节 中 提 到 的 最 小 二 
乘法 。 这 种 方法 适用 于 直线 而 不 适用 于 区 域 ， 它 求 数 据点 到 直线 的 最 小 垂直 距离 。 本 节 中 提 
到 的 方法 则 求 公式 (9-29) 所 示 的 垂 线 投影 距离 的 最 小 值 。 此 外 ， 还 有 其 他 方法 。 例如 ， 
[9.53] 中 找到 一 种 分 段 线 性 的 表示 方法 可 以 保留 任意 指定 阶 的 矩 。 

我 们 在 很 多 场合 都 会 用 到 数据 拟 合 。 例 如 ，0O’Gorman 在 [9.54] 中 不 仅 研究 了 拟 合 直 线 边 
缘 的 问题 ， 而 且 研 究 拟 合 点 集 、 直 线 、 带 直线 边 的 区 域 的 问题 。 这 样 可 以 达到 分 像素 级 
(subpixel) 的 精度 。 

接 下 来 ， 我 们 将 考察 一 些 简单 的 特征 ， 这 些 特征 可 以 用 来 描述 区 域 的 形状 〈 要 了 解 更 多 
的 特征 ， 请 参考 [9.2] ) 。 


9.3 简单 特征 


在 本 节 中 ， 对 于 图 像 分 割 得 到 的 区 域 ， 我 们 要 介绍 一 些 描述 区 域 形 状 的 特征 。 其 中 的 许 
多 特征 在 图 像 分 割 阶段 就 可 以 计算 出 来 。 例 如 ， 由 于 连通 部 件 标 号 程序 必须 遍历 区 域 的 每 一 
个 像素 ， 因 此 可 以 很 容易 地 跟踪 区 域 的 面积 。 

下 面 罗 列 了 一 些 同样 易于 计算 的 简单 特征 : 

* 平 均 灰 度 值 一 -在 黑白 “剪影 ”(silhouette) 式 的 图 片 中 ， 这 很 容易 计算 。 

“最 大 灰 度 值 一 一 直接 计算 即 可 。 

“最 小 友 度 值 一 直接 计算 即 可 。 

“面积 (A) 一 一 区 域内 像素 的 数目 。 

“ 周 长 (P) 一 -有 几 种 不 同 的 定义 。 最 简单 的 一 种 就 是 区 域内 所 有 与 其 他 区 域 像 素 相 邻 

的 像素 的 数目 。 

“直径 (D) 一 -直径 描述 最 长 弦 ， 即 区 域 边界 上 相距 最 远 的 两 个 像素 之 间 的 距离 f9.68， 

9.71]。 在 下 一 节 中 ， 我 们 将 讨论 计算 这 一 参数 的 方法 。 

* 细 长 度 ( 也 称 紧 致 度 ) O (T) 一 -有 两 种 定义 : T, = (P?/ 4)-4x 衡量 的 是 周 长 的 平方 与 面 

积 的 比 ，Th=D/4 衡 量 的 是 直径 与 面积 的 比 。 图 9-6 比 较 了 示例 区 域 上 两 种 不 同 的 度量 方法 。 

“重心 (CG) 一 -区 域内 N 个 点 的 重心 坐标 可 以 写成 : 


O 一 些 作者 [9.69] 不 愿 把 紧 致 度 的 数学 定义 与 这 一 定义 混为一谈 ， 因 此 把 这 一 度量 称 为 等 周 度 重 (isoperimetric 


measure), 


N 
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mc x m= Dy 
但 我 们 更 习惯 写成 向 量 形式 : 
| m- lS M | (9-34) 
N e | Y; 
*X-Y sro (BW 89-7) 一 一 纵横 比 是 
区 域 的 长 方形 边框 的 长 宽 比 。 这 是 很 容 C) Th, T 
易 计 算 的 。 (1 ~ 
。 最 小 纵横 比 (参见 图 9-8) 一 一 也 是 一 种 LX. T 
长 宽 比 ， 但 是 要 找到 包围 区 域 的 最 小 长 Tk, TU 
方形 计算 量 就 大 多 了 。 


最 小 纵横 比 的 计算 是 很 困难 的 ， 因 为 这 是 | 
一 个 极 值 点 的 搜索 问题 。 但 如 果 我 们 把 区 域 视 ES 不 同 的 紧 致 度 定义 下 几 种 区 域 的 度量 结果 。 
为 点 在 椭 济 上 的 分 布 ， 就 可 以 得 到 一 个 很 好 的 由 于 相同 面积 的 区 域 中 圆 的 周 长 最 短 ， 所 以 贺 的 也 
近似 值 。 正 如 我 们 在 图 9-5 中 讨论 的 那样 ， 数 据 ”入 最 小 ， 而 同样 面积 的 星 形 周 长 就 长 得 多 
点 的 协 方差 矩阵 的 特征 值 反 映 了 数据 在 两 条 正 交 轴 (长 轴 和 短 轴 ) 上 的 分 布 ， 两 个 特征 值 的 
比值 就 是 对 最 小 纵横 比 的 很 好 近似 。 


A 
. x 
y < poa 
x — 


图 9-7 yx 是 纵横 比 的 一 种 ， 即 区 域 的 长 方形 边 图 9-8 y/x 是 最 小 纵横 比 
框 的 水 平 边 与 垂直 边 的 比值 


“孔洞 的 数目 一 是 区 域 中 孔洞 的 数目 ， 这 是 一 个 描述 能 力 很 强 同时 又 相对 容易 计算 的 特 
fi. 
* fü 相似 度 一 一 设 P， Pz, PP 是 区 域 边界 上 的 三 个 点 ， 设 d(P,， 六 是 两 点 间 的 欧 氏 距 离 ， yl 
S= d(P,, P,)+ d(P,, P;)+d(P3, P1) 就 是 三 角形 的 周 长 。 二 维 向 量 
[emo m] 
S S 
即 三 角形 中 两 条 边 的 边 长 与 周 长 的 比 定义 为 三 角 相似 度 。 这 一 特征 具有 旋转 、 平 移 和 缩 
放 不 变性 。 
“对 称 性 一 在 二 维 空间 中 ， 如 果 一 个 区 域 绕 某 条 直线 旋转 180 度 后 与 原 区 域 重合 ， 我 们 
就 说 这 个 区 域 是 镜面 对 称 的 。 这 条 直线 被 称 为 对 称 轴 。 如 果 一 个 区 域 绕 一 点 (通常 是 重 
D) 旋转 2n/n 角 度 后 与 原 区 域 重合 ， 我 们 就 说 这 个 区 域 是 a 阶 旋转 对 称 的 。 这 里 有 两 个 
问题 : 一 是 确定 对 称 轴 的 位 置 ; 二 是 回答 这 样 的 问题 : “ 它 有 多 对 称 ? ”1995 年 以 前 ， 
在 计算 机 视觉 的 应 用 中 , 大 多 数论 文 在 分 析 区 域 的 对 称 性 时 都 把 它 作 为 一 个 判定 性 问题 : 
对 称 或 不 对 称 。Zabrodsky 等 人 在 [9.97] 中 则 提出 了 一 个 “对 称 距离 ”的 度量 来 衡量 一 个 
区 域 有 多 对 称 。 


(9-35) 
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计算 直径 

前 文中 提 到 的 直径 若 与 其 他 特征 结合 起 来 ， 并 用 恰当 的 方法 计算 ， 是 一 种 鲁 棒 的 形状 度 
量 方法 。 因 此 ， 我 们 专用 一 小 节 来 介绍 直径 的 计算 过 程 。 

设想 如 下 的 情况 : 假定 你 在 模拟 计算 机 寻找 图 像 中 具有 特定 形状 的 区 域 ， 这 样 的 区 域 应 
当 是 细 长 的 ， 并 有 特定 的 朝向 。 你 将 如 何 定 量 描述 诸如 “ 细 ”、“ 长 ”等 模糊 特征 呢 ? 又 将 如 
何 确定 区 域 的 朝向 呢 ? 毕竟 区 域 不 过 是 由 区 域 增 长 算法 输出 的 一 系列 点 组 成 。 当 然 在 文献 中 
可 以 找到 许多 描述 区 域 形状 的 方法 。 其 中 的 一 个 方法 就 是 利用 区 域 的 “极点 ”(extremes) 的 
位 置 或 区 域 的 “直径 "。 所 谓 “ 极 点 ”， 就 是 区 域 中 的 两 个 点 4、B， 它 们 之 间 的 距离 4(4, BK 
于 或 等 于 区 域 中 任意 两 个 点 的 距离 。 

这 种 计算 在 需要 定量 描述 图 像 中 区 域 的 形状 时 可 以 找到 许多 应 用 。 例 如 ， 组 装 线 上 对 零 
件 自动 分 类 ， 光 学 字符 识别 等 等 。 此 外 ， 在 机 器 人 应 用 中 也 会 用 到 这 种 方法 ， 例 如 机 器 人 为 
了 拾 起 物体 需要 先 识别 区 域 的 朝向 。 

设 一 个 二 维 图 像 平面 的 区 域 由 点 集 R 构 成 ， 问 题 就 变 成 了 寻找 4, BER, ER Vp,P ER ， 
都 有 d(4, B) > dp, p;)。 如 果 集 合 R 比 较 小 ， 比 如 说 只 有 10 ~ 20 个 点 ， 最 直接 的 方法 就 是 计算 
集合 中 每 一 点 与 其 他 各 点 的 距离 并 进行 比较 。 但 是 ， 如 果 随 着 R 的 规模 变 大 ， 比 较 操 作 的 次 数 
将 增长 到 n(n - 1)/2 次 ， 即 达到 O(n”) 的 量 级 。 i 

本 节 中 ， 我 们 将 提 到 一 种 解决 这 个 问题 的 技巧 ， 即 利用 特征 值 分 析 的 方法 找到 区 域 主轴 
的 最 优 估 计 (在 一 般 的 最 小 平方 意义 上 )， 并 把 该 轴 上 分 布 在 最 远 端的 两 个 点 定义 为 极点 。 在 
9A.1 节 中 还 会 提 到 另 一 种 适用 于 非 凸 区 域 的 方法 ， 这 种 方法 是 启发 式 的 ， 实 现 起 来 有 些 复杂 ， 
但 速度 很 快 并 保证 收敛 。 


主轴 方法 
这 种 方法 首先 找到 区 域 的 主轴 以 及 区 域 边界 上 距离 主轴 最 近 的 两 个 点 。 在 这 种 方法 中 ， 


小 的 偏离 一 例如 图 9-9 中 的 毛刺 一 一 将 被 忽略 ， 尽 管 这 些 地 方 可 能 包 
含 一 个 极点 。 一 
第 一 步 是 计算 主轴 。 这 里 运用 了 平方 误差 最 小 化 的 技巧 。 很 重要 
的 一 点 是 误差 最 小 化 的 过 程 必须 与 坐标 轴 的 选择 无 关 ， 因 此 我 们 采用 图 9-9 带 有 毛刺 的 区 域 
了 本 章 中 前 面 提 到 过 的 特征 向 量 直 线 拟 合 方法 。 如 果 区 域内 的 点 到 一 
条 直线 的 垂直 距离 的 平方 和 最 小 ， 我 们 把 该 直线 定义 为 主轴 的 最 优 表示 。 
假定 区 域 R 由 点 集 R = {x y) li=1, ,7 表示。 设 点 Co， AREER, 点 v; 到 主轴 的 


距离 用 4d; 表示 。 这 样 ， 区 域 的 主轴 就 是 使 下 式 取得 最 小 值 的 直线 : 
v= Sai (9-36) 


很 容易 证 明 主 轴 必 然 经 过 区 域 的 重心 ， 因 此 只 要 找到 主轴 的 倾角 即 可 。 因 为 主轴 经 过 重 
心 ， 所 以 我 们 可 以 把 重心 作为 坐标 系 的 原点 。 那 么 问题 变 成 了 : 给 定 n 个 均值 为 零 的 数据 点 ， 
找到 过 原点 的 直线 使 最 小 。 

这 与 我 们 前 面 描述 的 特征 向 量 问题 是 同一 问题 。 因 此 我 们 可 以 通过 如 下 步骤 找到 主轴 

1) 每 个 点 的 坐标 减 去 重心 的 坐标 使 坐标 原点 移 到 重心 ; 

2) 找 出 新 坐标 系 下 点 分 布 托 阵 的 主 特征 向 量 ; 
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3) 主轴 就 是 通过 重心 ， 并 与 主 特征 向 量 方向 平行 的 直线 。 

找到 了 主轴 后 ， 就 可 以 计算 边界 上 每 个 点 在 主轴 上 的 投影 。 极 点 就 是 主轴 两 侧 投 影 最 长 
的 点 (极点 并 不 总 有 唯一 解 )。 这 种 方法 得 到 了 一 种 最 小 均 方 误差 意义 下 对 区 域 形状 的 一 种 精 
确 表示 。 它 找到 的 并 不 一 定 是 相距 最 远 的 两 点 。 在 很 多 应 用 中 ， 这 样 的 近似 正 是 我 们 所 需要 
的 。 然 而 ， 有 时 我 们 可 能 会 遇 到 带 有 毛刺 的 区 域 (如 图 9-9 所 示 )， 而 且 毛刺 是 不 能 被 忽略 的 。 
此 时 ， 我 们 要 用 一 种 算法 找到 真正 的 极点 (参见 9A.1 市 )。 


HE (convex hull) 
如 果 我 们 用 绷 紧 的 胶带 缠绕 区 域 的 边界 ， 胶 带 围 成 的 区 域 就 称 为 凸 包 〈 参 见 图 9-10 )。 
一 个 区 域 与 它 的 凸 包 的 相差 部 分 被 称 为 凸 补 (convex 

discrepancy )。 山 包 的 快速 算法 参见 Shamos[9.68]， 计算 凸 包 的 并 

行 算法 参见 [9.30]。 

山 包 可 以 有 O (n log 门 次 ， 因 此 ， 寻 找 凸 包 有 另 一 种 简单 的 特 

fi: hh, 参见 图 9-10。 


9.4 5B 


形状 的 矩 是 很 容易 计算 的 ， 而 且 我 们 将 会 看 到 ， 和 矩 对 相似 变换 具有 不 变性 。 
区 域 的 p + 4g 阶 矩 定义 如 下 : 





图 9-10 区 域 的 凸 包 。 阴 影 
部 分 是 凸 补 


my, = V x^ y fx,y) (9-37) 


我 们 假定 区 域 的 灰 度 是 均一 的 ， 且 区 域内 的 像素 灰 度 值 为 1， 区 域外 像素 的 灰 度 值 为 0， 
那么 区 域 的 面积 就 是 moo， 重心 坐标 如 下 : 





m, =% n= (9-38) 
Moo ”moo 
从 和 矩 可 以 派生 出 一 系列 类 似 的 度量 (中心 矩 )， 这 些 度量 对 平移 变换 具有 不 变性 : 
Hyg = Gom G- m f(x,y) (9-39) 


把 旋转 和 缩放 考虑 在 内 ， 可 以 派生 出 更 多 类 似 的 度量 ， 而 且 通 过 选择 高 阶 的 矩 ， 并 将 它 
们 组 合 起 来 ， 可 以 定义 任意 多 种 特征 。 由 中 心 矩 可 以 进一步 定义 规范 化 中 心算 (normalized 


central moments ): 





BJE, PA (invariant moments) [9.21] 具 有 平移 、 旋 转 、 和 比例 变换 不 变性 ， 这 就 是 
说 即使 图 像 经 过 了 平移 、 旋 转 或 缩放 ， 我 们 仍 得 到 相同 的 矩 ?。 这 些 不 变 矩 列 在 表 9-1 中 。 

它们 最 初 由 Hu 在 [9.33] 中 提出 ， 此 后 Rothe 等 人 在 [9.62] 中 又 提出 了 对 仿 射 变换 具有 不 变性 
BAR. 

REER RRSSAA, FERD Ela, EM ROAR 4 — 28229 TCU 
采样 非常 敏感 [9.45] (参考 作业 9.9 ) 。 


© Gonzalez 和 Wintz 在 [9.21] 中 把 缩放 称 为 “比例 变换 *"， 但 我 们 使 用 的 “比例 ”一 词 意 义 稍 有 不 同 ， 因 此 我 
们 更 愿意 使 用 “缩放 ”一 词 。 
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39-1 HABE 


中 = Tho — Tp2 

Q2 = (n0 — Nor)? + 4nd 

3 = (no — 3013)? + (91. ~ n3? 

4 = ("30 + 12) + Mo + Na)” 

95 = (M30 — 3m 12)(30 + NDEM + N12} — 30005 + T2714 
Gi — Nomos + Nai [36030 + N12)? — Mos + 21)7] 

$95 = (N20 一 moz)[(nao + 0122? — Mos + 21)? 
411(130 + 322021 + Nos) 

$7 = Qi — Nos)(n30 + N12) (30 + N12)? — 30mos + N21)? 1+ 
Gaiz — No3)(Ma1 + Nos )£3(n30 + N12)? — (nos + 21)7] 


图 像 匹 配 中 有 一 类 称 为 “规范 化 方法 ”(method of normalization) MIAH, BAK 
际 上 是 其 中 的 一 种 。 这 类 方法 的 基本 原理 是 首先 对 区 域内 的 所 有 点 进行 变换 (通常 是 线性 变 
H) 以 便 把 区 域 纳 入 一 种 规范 的 框架 。 最 简单 的 变换 就 是 所 有 点 的 坐标 都 减 去 重心 的 坐标 ， 
这 样 坐标 原点 就 移 到 了 区 域 的 重心 。 在 更 一 般 的 情形 中 ， 这 类 变换 可 能 是 仿 射 变换 ， 包 括 平 
移 、 旋 转 和 剪 切 。 然 后 在 变换 域内 进行 匹配 ， 因 为 在 变换 域内 同一 类 物体 (例如 三 角形 ) 看 
起 来 都 相同 。 

如 果 要 计算 灰 度 图 像 的 怎 ， 还 需要 对 算法 进行 改进 ， 此 时 公式 (9-37) 中 的 f 值 就 不 是 六 
值 化 后 的 结果 了 。 所 有 的 不 变性 理论 仍然 成 立 ， 不 过 正如 Gruber 和 Hsu 在 [9.24] 中 指出 的 那样 ， 
噪声 对 和 抵 计 算 污 染 的 程度 与 数据 有 关 。 

一 旦 程序 抽取 了 一 些 特征 ， 这 些 特征 总 会 有 用 武之 地 ， 或 者 是 匹配 两 个 观察 值 ， 或 者 把 
观察 值 与 模型 进行 匹配 。 在 13.2 节 中 将 介绍 匹配 中 一 些 简单 特征 的 用 法 。 


9.5 链 码 


链 码 是 一 种 描述 区 域 边界 的 特征 。 在 链 码 中 ， 我 们 用 数字 序列 表示 按 逆 时 针 方 向 沿边 界 
前 进 时 ， 每 一 步 的 方向 。 

如 果 使 用 八 个 方向 ， 所 有 的 链 码 都 在 0 ~ 7 之 闻 ， 如 果 使 用 四 个 方向 ， 所 有 的 链 码 都 在 0 ~ 3 
之 间 。 在 表示 边界 时 ， 链 码 指 示 了 每 一 步 的 方向 。 链 码 的 八 个 主 方向 和 四 个 主 方向 的 定义 如 
图 9-11 所 示 。 这 样 每 个 区 域 的 边界 就 可 以 用 一 串 数字 来 表示 。 一 种 更 紧 致 的 表示 方法 是 在 某 个 
方向 重复 出 现时 使 用 上 标 。 例 如 ，0012112 776660 可 以 表示 成 021212272630 ， 它 所 表示 的 边界 
如 图 9-12 所 示 。 用 符号 序列 表示 边界 的 能 力 在 “语法 模式 识别 ”(syntactic pattern recognition ) 
领域 扮演 了 重要 的 角色 ， 并 在 机 器 视觉 的 文献 中 频繁 出 现 ， 包 括 本 书 的 其 他 地 方 。 





图 9-11 治 边界 前 进 时 下 一 个 像素 与 当前 像素 的 八 种 图 9-12 由 链 码 0"121227*60 表 示 的 边界 片段 
HARR (BWR) 和 四 种 方向 关系 (4 邻 域 ) 
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9.6 健 里 叶 描述 子 


传 里 叶 描述 子 是 另 一 种 描述 区 域 边界 的 特征 。 给 定 区 域 的 边界 ， 我 们 假定 区域 位 于 一 个 
复数 平面 上 ， 每 一 点 的 x 坐 标 代表 在 实数 轴 上 的 投影 ，? 坐 标 代表 在 虚数 轴 上 的 投影 ， 因 此 边 
界 上 的 每 个 点 都 可 以 看 作 一 个 复数 。 遍 历 边界 就 得 到 一 个 轮转 的 复数 序列 。 对 这 个 序列 进行 
传 里 叶 变 换 得 到 另 一 个 复数 序列 ， 可 以 证 明 这 个 序列 具有 表 9-2 所 示 的 一 系列 不 变性 。 

下 面 就 是 一 个 这 样 的 例子 ， 尽 管 有 些 过 于 简化 。 

假定 我 们 有 两 个 边界 的 伟 里 时 描述 子 如 下 : 

fi = 0.7, 0.505, 0.304, 0.211,... 

Sf, = 0.87, 0.505, 0.304, 0.211... 

可 以 看 出 这 两 个 序列 只 有 第 一 项 直流 分 量 不 同 ， 因 此 它们 代表 的 两 个 边界 之 间 只 差 一 步 
平移 变换 。 

39-2 在 图 像 域 和 变换 中 同一 种 变化 的 对 应 关系 





图 像 域 变换 域 
尺寸 的 变化 乘 以 一 个 常数 
绕 原 点 旋转 角度 中 相位 平移 
平移 直流 分 量 的 变化 


这 个 例子 过 于 简化 了 ， 因 为 真实 的 序列 是 一 系列 复数 ， 而 不 像 演示 中 那样 只 有 实 部 ， 但 
原理 上 是 一 样 的 。 


在 实际 使 用 傅 里 叶 描述 子 时 应 考虑 的 问题 

我 们 表示 边界 移动 的 方式 是 至 关 重 要 的 。 仅 用 四 邻 域 链 码 得 到 的 结果 很 差 。 用 八 邻 域 链 
码 可 以 减少 40% ~ 80% 的 错误 ， 但 仍 不 如 使 用 亚 像素 插值 得 到 的 结果 好 。 此 外 ， 还 有 其 他 的 复 
杂 问 题 ， 包 括 一 些 党 用 的 边界 参数 (AIK) 不 具有 仿 射 变换 不 变性 [9.1, 9.96]。[9.39] 中 
的 实验 比较 了 具有 仿 射 变换 不 变性 的 傅 里 叶 描 述 子 和 自动 递归 方法 。 要 了 解 更 多 关于 传 里 时 
描述 子 的 内 容 ， 请 参考 [9.1]。 


9.7 中 轴 


”在 二 维 空间 中 ， 一 个 区 域 的 中 轴 定 义 为 “最 大 图 ” 的 圆心 的 轨迹 。 最 大 圆 是 指 以 区 域内 
给 定点 为 圆心 且 区 域内 能 够 容纳 的 最 大 的 圆 。 让 我 们 说 得 更 准确 些 (我 们 都 需要 学 习 如 何 用 
数学 工具 使 我 们 的 语言 更 严谨 )。 给 定 区 域 9 中 的 一 点 (x, y)， 绕 该 点 画 半径 为 R 的 贺 ， 让 R 尽 可 
能 大 但 要 满足 : 1) 圆周 上 的 任何 一 点 都 不 能 超出 区 域 的 范围 2) 圆周 与 区 域 边 界 至 少 有 两 
个 交点 。 可 以 证 明 中 轴 上 的 每 一 点 都 是 距离 变换 DT(distance transform) 的 一 个 局 部 极 大 值 点 。 
如 果 一 个 点 的 DT 值 为 E， 且 它 的 所 有 相 邻 点 的 DT 值 都 不 超过 K， 则 称 该 点 取得 了 DT 值 的 局 部 
极 大 值 。 图 9-13a 与 图 7-3 相 同 ， 这 个 DT 变换 的 局 部 极 大 值 点 如 图 9-13b 所 示 。 

我 们 也 可 以 把 中 轴 想 像 成 静电 场 的 电压 。 如 果 边 界 刚 好 是 直线 或 者 三 维 空间 中 的 平面 
[9.21]， 这 种 想法 更 容易 实现 。 在 [9.16] 中 可 以 找到 其 他 的 计算 均值 的 高 效 方法 。 


O 注意 ,本 段 内 的 数据 类 型 ， 很 容易 忽视 。 
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a) b) 
图 9-13 用 四 邻 域 法 计算 的 区 域 的 DT 值 a) 用 形态 学 方法 抽取 的 骨架 ， 由 DT 值 的 局 部 极 大 值 点 组 成 b) 


PHA KA 


FP AY ez SC a FA 8, BD ASC FA De SY HU PARI BR STDP AE 2 JE 
图 像 定义 的 。 我 们 可 以 用 如 下 方法 把 这 两 种 特征 联系 起 来 : 用 不 同 的 尺度 表示 图 像 。 也 就 是 
说 ， 把 二 值 图 像 模糊 化 。 这 样 的 过 程 可 以 把 二 值 图 像 变 成 灰 度 图 像 。 然 后 再 来 找 脊 。 首 先 在 
尺度 最 大 (最 模糊 ) 的 地 方 找 硝 ;你 可 以 把 找到 的 状 作 为 中 轴 的 初 值 。 现 在 降 到 稍 低 的 尺度 ， 
看 看 出 现 了 哪些 新 的 春 。 把 这 些 新 的 次 加 入 到 你 的 估计 中 去 。 在 不 同 的 尺度 空间 重复 这 一 
程 。 要 想 了 解 这 个 方法 的 原理 ， 请 参考 Pizer 等 人 的 [9.59]。 


98 变形 模板 


还 记得 第 8.5 节 中 讲 过 的 主动 轮廓 (snake) 吗 ? 如 果 把 区 域 想像 成 被 一 条 蛇 围 成 的 ， 而 不 
是 把 区 域 本 身 想 像 成 蛇 ， 那 么 区 域 就 可 以 变形 了 ， 因 此 发 明了 “变形 模板 ”(deformable 
template). 。 利 用 模板 可 以 变形 的 思想 可 以 跟踪 物体 [9.102]。 此 外 ， 变 形 模板 在 图 像 数 据 库 的 
存 取 中 也 很 有 用 。 例 如 ，Bimbo 和 Pala 通 过 比较 图 像 和 “图 标 索 引 ” 来 检索 图 像 [13.5] Xx fb 
由 用 户 提 供 的 “图 标 索 引 ” 也 是 变形 模板 的 一 种 。 最 优 的 匹配 模板 可 以 写成 : 
$(s) = v(s) + As) (9-40) 
其 中 s 是 弧 长 (规范 化 的 )，z(s) 是 数据 库 中 存储 的 模板 ，0 (s) 是 使 特定 模板 与 读 取 的 图 像 
中 的 边界 点 序列 匹配 所 需要 的 形变 。 重 点 在 于 9 (s) 是 初始 模板 与 变形 后 模板 之 间 的 差 。 数 据 
库 中 与 模板 最 匹配 的 图 像 就 是 使 “初始 模板 与 变形 后 模板 间 的 差 ” 最 小 的 图 像 。 使 下 式 取 最 
小 值 可 以 找到 最 优 匹 配 图 像 : 


-jle (2 (Ge) rene] (9-41) 


上 式 中 的 第 一 项 表示 初始 模板 需要 经 过 怎样 的 变形 才能 与 物体 相 匹配 ， 第 二 项 表示 模 
板 变 形 所 消耗 的 能 量 。 因 此 这 是 一 个 变形 模板 问题 。 这 个 优化 问题 可 以 用 数值 方法 求解 
[13.5]. 

变形 模板 的 一 个 变种 就 是 “几何 流 ”(geometric flow) 的 思想 。 几 何 流 的 方法 通过 改变 初 
始 曲线 的 形式 使 之 更 适合 于 物体 识别 或 模板 匹配 。 几 何 流 中 的 “几何 ”一 词 是 指 ， 流 完全 由 
曲线 的 几何 形状 决定 。Pauwels 等 人 在 [9.58] 中 用 这 一 准则 回答 了 如 下 的 问题 : “能 否 用 函数 优 
化 的 方法 刻画 曲线 的 几何 形状 ， 使 其 在 强化 显著 特征 的 同时 又 减少 噪声 ? ” 
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9 二 次 曲面 
用 二 次 代数 方程 描述 的 曲面 被 称 为 二 次 曲面 。 二 次 曲面 的 通用 形式 如 下 : 
ax? + by? «cz? +2 fyz + 2gzx + 2hxy + px+qy+rz+d=0 (9-42) 


这 一 形式 的 方程 描述 了 所 有 的 二 次 曲面 ， 其 中 的 儿 种 如 图 9-14 所 示 : 





双 曲 抛物 面 
椭圆 抛物 面 N 


图 9-14 二 次 方程 可 以 描述 很 多 类 型 的 曲面 [9.103] (使 用 该 图 片 得 到 了 CRC 出 版 社 的 许可 ) 
如 果 二 次 曲面 以 原点 为 中 心 ， 而 且 主 轴 恰 好 与 坐标 轴 平 行 ， 那 么 相应 的 二 次 方程 的 形式 
就 比较 特别 。 例 如 ， 这 样 的 椭 球 面 的 方程 如 下 : 


2 2 
y z 
me 9-43 
a tg M" ( ) 


x 
2 
但 是 ， 如 果 二 次 曲面 的 轴 不 与 坐标 轴 平 行 ， 那 么 相应 的 方程 就 只 能 是 公式 (9-42) 的 一 般 形 式 。 
从 深度 数据 或 其 他 表面 数据 可 以 计算 出 二 次 曲面 方程 的 系数 ， 第 8.6.1 节 就 介绍 了 这 样 的 
方法 。 系 数 确定 后 ， 二 次 曲面 的 类 型 可 以 用 如 下 方法 判定 ”。 
如 果 方 程 中 有 常数 项 4， 则 各 项 同时 除 以 这 个 常数 ， 得 到 常数 项 为 1 的 二 次 方程 : 


ax? + by! +cz +2 fyz + 2gzx +2hxy+ px+qy+rz+1=0 (9-44) 
上 面 的 方程 可 以 改写 成 : 
ah g p]|[x 
ER 5m. 9-45 
PU s. ss l i 
0 0 0 1jjl 
考察 左上 角 的 3 x 3 子 阵 : 
ah 8 
Eh b f 
g f c 








日 ”作者 感谢 G .L.BilbroZjiZJ ikte BG A XX. 
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计算 出 它 的 三 个 特征 值 *,、 和 和 A 并 求 出 所 有 非 零 特征 值 的 倒数 r， =1/0,, r MA, ra 
=1/4，。 如 果 方 程 表 示 的 是 真实 的 曲面 ， 那 么 至 少 有 一 个 特征 值 的 倒数 为 正 。 如 果 只 有 一 -个 倒 
数 为 正 ， 表 示 的 是 双 片 双 曲 面 ; 如 果 只 有 两 个 倒数 为 正 ， 表 示 的 是 单 片 双 曲 面 ; 如 果 三 个 倒 
数 都 为 正 ， 表 示 的 是 椭 球 面 ， 并 且 r,、r，、r; 的 平方 根 就 是 椭 球 的 主轴 。 另 外 ， 双 曲面 的 焦 踊 
由 这 些 r 的 模 决 定 。 


9.10 表面 的 谐 波 函 数 表示 


这 种 方法 用 确定 的 谐 波 基 范 数 的 线性 组 合 来 表示 表面 。 谐 波 函 数 是 拉 普 拉 斯 方程 的 解 : 
V^y(x,y,z) 20 (9-46) 


在 笛 卡 儿 坐 标 系 中 可 以 写成 : 











ary oy ay E 
ad + ay + P =0 (9-47) 
但 是 大 部 分 谐 波 函 数 表示 的 工作 都 没有 采用 币 卡 儿 坐 标 系 ， 而 采用 了 球面 坐标 系 (关于 
其 他 表示 形式 的 讨论 参见 Matheny 和 Goldgof[8.40])。 任 何 可 以 写成 + = r(9,9) 形 式 的 连续 函数 
都 可 以 表示 成 球面 谐 波 函 数 的 线性 组 合 。 在 球面 坐标 系 中 ， 拉 普 拉 斯 方程 如 下 : 








NEILA 1 0 /sing 1 aw _ 
PIU x] * sud ag (sino 50) tad op’ =0 (9-48) 
我 们 只 对 yy 函数 能 分 解 成 单 变量 函数 乘积 的 情况 求解 。 此 时 ， 久 函数 可 以 分 解 成 : 
vG.06.9)- ROO) — (9-49) 
在 这 一 条 件 的 限制 下 ， 偏 微分 方程 能 够 分 解 成 三 个 普通 的 微分 方程 ， 且 解 的 形式 如 下 : 
P" cos0sinmg (9-50) 
其 中 参数 /被 称 为 “ 度 ”，m 是 一 个 比 / 小 的 整数 ，P 是 一 个 勒 让 德 多 项 式 (Legendre 
polynomial), 
这 样 任何 函数 都 可 以 表示 成 : 
r(0,9)= > [en cos6 + Y [UP P" cos0 cos mq + V," P" cos@ sin "el (9-51) 
=l ms 


其 中 的 系数 可 以 通过 数据 拟 合 得 到 。 
9.11 超 二 次 曲面 

在 8.6 节 我 们 讨论 了 用 表面 函数 分 割 深度 图 像 的 问题 ， 并 介绍 了 如 何 根据 数据 拟 合 函数 。 
在 本 节 中 ， 我 们 将 描述 如 何 用 超 二 次 曲面 (superquadrics 和 hyperquadrics 两 种 超 二 次 曲面 是 
不 同 的 ， 但 在 中 文中 不 易 区 分 ， 故 以 下 在 必要 时 用 原 英文 名 加 以 区 分 一 - 译 者 注 )， 拟 合 深 
度数 据 。 

超 二 次 曲面 (superquadric) 是 如 下 方程 对 应 的 表面 : 


1 (9-52) 




















而 超 二 次 世面 (hyperquadric) 的 方程 如 下 : 
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S Ans Bye Geb" =1 (9-53) 
上 面 的 方程 简写 成 F (x, y. 2) = 1。 
Kumar 等 人 在 [8.32] 中 提出 了 一 种 用 hyperquadric 拟 合 深度 数据 的 方法 。 它 的 操作 过 程 如 下 : 
首先 要 意识 到 使 下 式 取得 最 小 值 的 参数 ， 就 是 一 个 拟 合 得 相当 好 的 函数 ， 因 为 在 表面 F 的 每 一 
点 上 ， 函 数 天 的 值 都 应 当 是 1.0。 


N 
EOF = 2o -= F(x; Yz) (9-54) 


要 注意 的 是 这 使 得 点 到 表面 的 代数 距离 (参见 8.6.1 节 ) 取得 最 小 值 。 如 果 点 落 在 表面 上 
则 代数 距离 (同时 欧 氏 距离 也 ) 为 零 ， 否 则 点 到 表面 的 欧 氏 距离 和 代数 距离 之 间 不 存在 简单 
的 对 应 关系 。Kumar 等 人 还 发 现 : “这 个 函数 是 有 偏差 的 ， 特 别 是 遇 到 拉 长 的 物体 时 。” 在 代 
数 距离 的 所 有 应 用 中 都 不 可 避免 地 存在 这 个 问题 。 
要 想得到 好 一 些 的 拟 合 ， 在 拟 合 函数 是 hyperquadric 时 ， 可 以 使 用 下 面 的 方法 。 假 定 我 们 
对 表面 有 一 个 初始 估计 ， 这 个 估计 不 太 坏 ， 但 也 许 不 是 最 佳 的 。 设 这 个 估计 是 由 一 组 参数 A、 
B. CIDE LH BB (x, y, z)。 对 一 个 特定 点 (xj, Yis zi) ;把 坐标 值 代 入 F 得 到 w, =F (Xis yi, 
2)。 如 果 这 点 落 在 表面 上 ， 则 w 应 当 为 1。 现 在 考察 一 下 由 正 (x,y,z) =w, 定义 的 表面 。 到 这 
一 表面 的 垂直 距离 可 以 用 梯度 方向 的 距离 d; 来 近似 。 
F(x, y,2) = FG, y, 2) + d | V FG y; zl (9-55) 
A EX8: 
1- F(x,, y; z) 
BOERS 


这 里 的 4 是 我 们 真正 想 要 最 小 化 的 。 这 是 一 个 经 过 点 (zx, y,, z;) ， 与 我 们 要 确定 的 表面 大 
致 平行 的 表面 ， 到 要 确定 的 表面 之 间 的 距离 。 这 些 还 只 是 估计 值 ， 我 们 需要 不 断 地 迭代 修正 
这 些 估计 直至 得 到 真正 的 角 为 做 到 这 一 点 ， 把 平方 误差 用 di 项 改写 成 : 

Q- FO. y.z» zy 
sD (957) 

(分 母 的 平方 是 译 者 修改 的 。 一 一 译 者 注 ) 

并 按照 下 面 的 步骤 最 小 化 目标 函数 : 

1) 首先 ， 选 定 初始 估计 ， 很 可 能 是 最 小 化 公式 (9-54) 的 数值 解 。 这 个 估计 并 不 太 差 ， 
但 由 于 是 有 偏 估计 ， 所 以 可 以 拟 合 得 更 好 。 

2) 对 每 一 个 数据 点 ， 计算 w = IVF (xi, yi, Zi) Ir. 

3) 最 小 化 > awa- FG yz) 。 


4) 如 果 解 已 经 足够 好 ， 结 束 ; 否则 转 到 2)。 

可 以 发 现 这 里 所 演示 的 是 一 种 拟 合 隐 函 数 的 通用 想法 ， 而 不 仅 局 限于 超 二 次 曲面 
(hyperquadric)。 对 于 过 数据 点 的 曲线 的 一 个 垂直 于 其 梯度 方向 的 函数 进行 最 小 化 ， 能 够 解决 
很 多 甚至 大 部 分 显 函 数 拟 合 的 问题 。 | 1 

Dickinson 等 在 [13.11] 中 把 Superquadric 表 示 方 法 和 外 观 图 (aspect graphs) 的 概念 结合 起 来 了 。 


(9-56) 
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9.12 广义 柱 体 


圆柱 体 可 以 描述 成 一 个 圆 沿 着 一 条 垂直 于 圆 面 的 直线 平移 时 所 经 过 的 区 域 。 如 果 设 想 一 
下 那 条 直线 是 可 以 弯曲 的 任意 一 条 空间 曲线 ， 并 可 以 用 弧 长 参数 表示, 这 条 曲线 就 变 成 了 s 的 
向 量 函 数 x(s), y(s), z(s)。 然 后 ， 允 许 圆 的 半径 随 着 在 曲线 上 的 位 置 而 变化 ， 即 R = R(s)。 那 么 ， 
你 对 广义 柱 体 就 有 一 些 认识 了 (参见 文献 [9.4, 9.21,9.23, 9.74, 9.75, 9.98])。 但 是 广义 柱 体 
(generalized cylinder) 的 概念 比 上 面 描述 的 还 要 广泛 。 沿 着 曲线 移动 的 物体 不 一 定 是 圆 ， 可 以 
是 任何 二 维 形状 。 

如 果 我 们 用 广义 柱 体 去 匹配 区 域 ， 我 们 可 以 用 曲线 的 参数 方程 和 圆 的 半径 方程 作为 特征 
描述 区 域 的 形状 。 然 而 ， 用 广义 柱 体 匹 配 区 域 时 会 遇 到 重大 的 挑战 。 本 书 中 对 广义 柱 体 不 做 
进一步 的 讨论 。 读 者 可 以 从 文献 中 找到 很 多 有 意思 的 论文 ， 其 中 的 一 部 分 列 在 上 一 段 中 。 


9.13 结论 


本 章 中 定义 了 一 些 可 以 定量 描述 区 域 形 状 的 特征 。 有 些 特征 ， 例 如 和 矩 ， 是 很 容易 得 到 的 
度量 。 另 一 些 特 征 ， 例 如 直径 和 凸 补 ， 需 要 开发 相当 复杂 的 算法 以 避免 非常 耗 时 的 计算 。 还 
有 一 些 工作 致力 于 形状 描述 子 的 自动 学 习 。 

对 视觉 皮层 信号 处 理 的 研究 表明 图 像 在 视觉 皮层 的 表示 经 过 了 对 数 极 坐 标 变换 (log-polar 
transformation) ， 因 此 具有 不 变性 [9.63, 9.90]。 还 有 一 些 变换 [9.87] 可 以 为 计算 机 应 用 提供 等 
价 的 甚至 是 更 优 的 表示 。 . 

在 本 章 中 ， 我 们 再 一 次 看 到 了 一 致 性 原理 的 应 用 ， 如 果 一 个 像素 集中 的 每 个 点 都 满足 同 
一 个 方程 我 们 就 说 这 些 像素 满足 一 致 性 ， 不 论 满足 的 方程 是 二 次 曲面 还 是 广义 圆柱 体 。 

最 优化 方法 在 本 章 中 出 现 了 好 几 次 : 

“在 9.2.2 节 中 演示 了 一 个 检测 集 的 最 优 拟 合 直线 的 推导 ， 这 里 的 最 优 是 指 在 垂 线 上 的 投 
影 之 和 最 小 。 为 求解 这 一 问题 ， 我 们 要 借助 拉 格 朗 日 乘 子 法 求解 约束 条 件 下 的 最 小 化 
问题 。 

。 在 9.8 节 中 我 们 利用 积分 平方 误差 最 小 化 检测 模板 的 形变 。 

* 在 9A.2 节 中 ， 我 们 将 遇 到 一 个 非 方 阵 的 求 “ 逆 ”问题 。 当 然 ， 这 样 的 矩阵 无 站 求 逆 ， 但 
可 以 推导 出 一 个 “ 伪 逆 ”( pseudo-inverse )。 我 们 还 将 证 明 伪 逆 实 际 上 是 使 平方 误差 最 
小 化 的 算法 。 


9.14 术语 

仿 射 变换 affine transform 
纵横 比 aspect ratio 

基 疝 量 basis vector 
.重心 center of gravity 
链 码 chain code 

紧 致 性 compactness 
gt convex hull 


EEUU convex discrepancy 
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变形 模板 deformable template 

直径 diameter 

18 Bt HR T- Fourier descriptor 

广义 柱 体 generalized cylinder 

齐 次 变换 矩阵 homogeneous transformation matrix 
FREE invariant moment 

K-L 变 换 K-L transform 

线性 变换 linear transformation 

中 轴 medial axis 

| 度量 metric 

4B moment 

正 交 变换 orthogonal transformation 

主 分 量 principal component 

相似 变换 similarity transform 

细 度 thinness 


专题 9A 形状 的 描述 


9A.1 求 非 凸 区 域 的 直径 


一 个 估计 直径 的 快速 算法 如 下 : 

1) 在 边界 上 任 选 一 点 ， 设 为 Po; 

2) 在 边界 上 找到 距离 Po 最 远 的 点 ， 设 为 Pl。 

3) 计算 Po 和 P, 的 中 点 M。 H 

4) 在 边界 上 找到 距离 M 最 远 的 点 P,。 

5) 在 边界 上 找到 距离 P, 最 远 的 点 P;。 

6) 如 果 d(P，， P3) < d(Po, P1)，Po 和 Pl 之 间 的 距离 就 是 极 大 值 ， 结 束 ; 否则 ， 令 Po P. P, 
—P,, PERI (3). 

这 一 方法 很 容易 编程 实现 ， 而 且 收 敛 得 很 快 。 在 这 一 点 上 我 们 很 走运 。 不 幸 的 是 ， 这 个 
算法 不 保证 收敛 到 全 局 的 极 值 点 ， 尽 管 有 很 大 的 可 能 性 。 

上 文中 的 算法 经 过 扩展 提供 了 一 种 保证 收敛 的 策略 。 另 外 ， 这 个 扩展 的 算法 还 提供 了 一 
种 迅速 缩小 搜索 空间 的 机 制 。 

首先 ， 定 义 一 个 线性 搜索 函数 M(P,, R)， 这 个 函数 的 返回 值 Pi,, = M (P, RK 
Æ Vx ER, d(P,x) < d(P,,, P). 

TEXE— AP ER, EP, =M (P, R-P); A, RAP, =M (P,, R-{P,, Pa} )。d(Pi, P;) 
和 d(P,, P;) 之 间 的 关系 只 有 下 面 三 种 可 能 ， 如 图 9-15 至 图 9-17 所 示 : 

情况 1: d(P,, P,) > d(P,, P3) 

情况 2: d(P,, P) = d(P2, Ps) 

情况 3: d(P,, P3) < d(P,, P4) 

TES SAO, RATER EP, 2A P, REAP, P) = d(P,, P), BP, 
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P 和 BB 在 同一 条 直线 上 上。 这样， 最 多 经 过 两 次 线性 搜索 ， 我 们 就 得 到 了 一 个 覆盖 了 R 中 所 有 


P, Py P, 
ZA Xu. P, 
L> P, 
图 9-15 情况 1 图 9-16 情况 2 图 9-17 情况 3 





图 9-18 在 本 图 中 ，B, 是 一 个 极点 ， 另 一 个 极点 是 Ri 中 的 一 个 元 素 (根据 [9.71] 重 新 绘制 ) 


我 们 的 启发 式 搜索 策略 认定 “最 好 ”的 搜索 方向 在 垂直 于 Pi P, 的 方向 上 (情况 3 中 垂直 于 
P,P). 

计算 图 9-18 所 示 的 顶点 m 和 om。 然 后 找到 B, =M (0, {R-{P,, P3). Jide B) «q(P,P), 停 
止 ， 否 则 把 R - {P, P} 分 成 两 个 互 斥 的 区 域 R 和 R,， 其 中 R={xER-{P,B}lld(x,o)>d(P,P)} 
( 译 者 注 : 原文 中 为 d(x, R) > d(B,BB)。 找 到 B, =M (a, R - Ri R, - (€ R - (5, P) - Rd(x,a,) 
> d(P,, P,)} 

注意 : 1) 一 般 说 来 ，R URCR。 但是， 对 R- RUR 中 的 点 我 们 不 感 兴 趣 。2) 如 果 
R,=ORR=O , 我 们 可 以 停止 搜索 ， AP, PREA. 

如 果 R, 和 R, 都 非 空 ， 我 们 把 它们 定义 为 “对 距 区 域 ”(antipodal region)。 对 距 区 域 的 含义 
如 下 : 如 果 存 在 比 4(P1, P,) 长 的 直径 那么 必然 有 一 个 端点 落 在 R, 中 ， 另 一 个 端点 落 在 Rs, 中。 
这 样 可 以 把 搜索 空间 划分 成 两 部 分 。 

以 Qa 为 圆心 ，d(a, B1) 为 半径 作 弧 ， 弧 与 透镜 形 区 域 的 交点 标记 为 B11 和 pi。。 同 理 可 得 
Mpz. EE 4B Ba) = d(B, By) ， 这 就 是 直径 的 上 界 。 在 数字 图 像 中 ， 得 到 上 界 后 可 以 早 
些 停止 算法 ， 因 为 如 果 我 们 知道 了 某 个 候选 直径 和 上 界 ， 并 且 二 者 之 差 小 于 1.414 (像素 区 域 
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的 对 角 线 长 度 )， 就 没有 必要 继续 搜索 了。 

计算 -= MAX((B,B,),4(3,P,) ， 用 这 一 直径 作 弧 。 以 Pi 为 圆心 ，r 为 半径 作 弧 可 以 把 R 
分 成 两 个 区 域 Ri, 和 Ri 一 Ri1。 同 样 的 ， 以 B2 为 圆心 ，r 为 半径 作 弧 可 以 找到 Ro; CR. ik 
BR -{R, UR} 中 不 包含 我 们 感 兴趣 的 点 。 FIFE ABR, AIR, ER =D (Hei Bx 
中 为 Ri =®) ARN R29, 那么 Ri 和 Ris 就 是 一 对 对 踊 区 域 。 Rs 和 Rs 的 情况 类 似 。 在 任何 
情况 下 ， ROR AR, N R, 都 是 对 踊 区 域 。 这 些 对 踊 区 域 是 我 们 下 一 阶段 的 搜索 空间 。 

到 此 为 止 我 们 要 么 已 经 确定 了 极点 的 位 置 ， 要 么 得 到 了 其 他 有 用 的 结果 ， 特 别 是 : 

1) 直径 的 上 界 已 经 得 到 。 

2) 一 个 相当 大 的 区 域内 的 所 有 点 都 已 经 从 极点 候选 中 排除 。 

3) 其 余 点 被 分 割 成 对 中 区 域 。 

此 时 ， 如 果 剩 余 点 的 数目 少 于 有 (通常 情况 都 如 此 )， 最 合适 的 方法 就 是 计算 凸 包 。( 天 的 
最 优 值 是 区 域 拓扑 学 研究 的 问题 。 我 们 经 验 是 和 = 50 似 乎 是 个 不 错 的 选择 。 ) 这 步 计算 可 以 利 
用 以 下 观察 结果 : l 

* 如 果 对 距 区 域 中 有 任何 一 个 集合 为 空 ， 则 另 一 个 集合 可 以 从 候选 中 排除 。 

。 极 点 必然 位 于 对 距 区 域 的 凸 包 的 两 侧 的 位 置 ， 这 样 又 可 以 排除 更 多 的 点 ， 因 为 我 们 可 以 

计算 更 小 的 区 域 的 凸 包 。 

另 一 方面 ， 如 果 剩 余 的 点 很 多 ， 就 必须 递归 地 调用 算法 ， 把 成 对 的 对 中 区 域 作为 搜索 区 
域 ， 选 择 那些 靠近 ， Br1、Bi、Bu 和 Ps 的 点 作为 新 的 起 始点 。 

对 于 有 N 个 点 的 区 域 R， 盲 目的 穷 举 搜索 要 进行 0 (n”) 次 距离 计算 和 比较 。 我 们 的 算法 也 是 
穷尽 整个 空间 的 (因此 保证 收敛 )， 但 由 于 考虑 了 区 域 的 整体 形状 而 变 得 更 加 智能 。 通 过 不 断 
排除 不 可 能 位 于 直径 端点 的 点 ， 初 始 的 搜索 空间 R 被 划分 成 较 小 的 互 斥 的 子 空间 。 

尽管 每 次 递归 调用 算法 后 子 空 间 的 数目 都 会 增加 两 个 ， 但 每 次 都 可 以 从 搜索 空间 中 排除 
很 多 点 。 因 此 ， 搜 索 空 间 迅 速 地 收编 。 收 缩 的 速度 取决 于 区 域 R 的 形状 。 

这 个 方法 来 自 几 何方 面 的 考虑 ， 因 此 它 收 敛 的 速度 与 区 域 的 几何 形状 有 密切 的 关系 。 所 
以 很 难 精确 地 计算 这 个 算法 的 复杂 度 。 仅 做 预 处 理 就 要 进行 0 (4n) 次 计算 ， 还 要 加 上 计算 剩余 
点 的 凸 包 的 时 间 ， 即 0 (kK log k) (其 中 # 率 示 预 处 理 后 剩余 点 的 数目 )。 

当然 在 最 坏 的 情况 下 ， 几 乎 没有 点 被 排除 ， 最 终 计算 4 个 点 的 山 包 的 时 间 是 0O (n log n). 
事实 上 ， 在 这 种 情况 下 ， 这 个 方法 比 直接 计算 凸 包 还 慢 ， 因 为 程序 更 加 复杂 。 

但 是 ， 由 于 分 支点 的 数目 很 多 ， 算 法 在 几乎 所 有 的 区 域 都 会 很 快 退出 ， 迅 速 收敛 。 


9A.2 从 图 像 推 测 三 维 形状 


人 们 写 了 很 多 从 各 种 线索 提取 三 维 形状 的 论文 : 从 轮廓 [9.42, 9.43, 9.44, 9.49, 9.101]; 从 
镜面 反射 体 的 图 像 [9.64]; 从 三 个 正 交 投影 (X 射 线 投影 ) [9.81]; 利用 物体 一 般 有 正 交 性 
[9.22] 或 对 称 性 的 假定 [9.18]。 最 后 ， 在 所 有 这 些 算法 中 ， 还 必须 重视 可 见 性 的 问题 [9.83]。 

人 们 可 能 会 认为 深度 图 像 已 经 包含 了 完整 的 三 维 形状 描述 ， 但 是 你 无 法 从 一 一 幅 图 像 中 看 
到 整个 表面 [9.31]。 “此 “人 很 困难 的 门 题 就 是 如 何 把 几 幅 深度 图 像 结合 起 来 形成 三 维 物体 的 
描述 [9.76, 9.93], 

尽管 你 可 能 已 经 在 一 一 定 程度 上 成 功 地 分 割 了 表面 ， 但 是 这 些 分 割 几 乎 从 来 都 不 是 完全 正 


确 的 。 你 可 能 认为 边缘 交点 的 方程 可 以 直接 找到 ， 因为 你 可 能 认为 毕竟 你 已 经 有 了 表面 方程 ， 
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而 正 是 表面 的 交集 决定 了 边缘 ， 因 此 只 要 计算 交集 就 可 以 了 ! 但 是 事情 从 不 是 那么 简单 。 当 
你 计算 顶点 的 时 候 问 题 出 现 了 一 一 顶点 是 边缘 的 交点 ， 而 这 里 的 边缘 又 是 三 面体 或 多 面体 各 
面 的 交点 。 你 推出 的 方程 从 不 会 交 于 一 点 。Hoover 等 人 在 {9.31] 中 重点 讨论 了 这 个 问题 ， 并 扩 
展 了 不 可 见 表面 的 解决 方法 。 

提取 三 维 形状 的 另 一 个 重要 问题 是 选择 什么 样 的 表示 ， 包 括 从 透视 关系 推测 三 维 形状 、 
从 阴影 推测 三 维 形状 、 从 纹理 推测 三 维 形状 等 。 
9A.2.1 从 透视 关系 推测 三 维 形状 

我 们 把 从 透视 关系 推测 三 维 形状 的 问题 形式 化 描述 如 下 : 一 个 实际 上 位 于 三 维 空间 中 [x， 
yzi] 的 点 被 观察 到 落 在 图 像 的 x; 行 和 c; 列 。 观 察 坐 标 和 真实 华 标 之 间 的 关系 如 下 : 


x; 











.] [kf 0 0 
: a k N off T]|» (9-58) 
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其 中 心太 、x、v 和 /是 照相 机 的 投影 参数 ，R 是 一 个 3 x 3 的 旋转 矩阵 ，7 是 一 个 3 x 1 的 
平移 向 量 。 假 定 我 们 知道 每 一 点 的 实际 三 维 坐标 和 相应 的 二 维 观察 值 ， 我 们 应 当 能 推出 变换 
矩阵 和 照相 机 参数 。 这 个 问题 有 若干 种 变形 [9.95]: 已 知 z 对 对 应 点 时 的 z 点 透视 问题 
(PoP); 已 知 n 对 对 应 直线 时 的 n 线 透视 问题 (PaL); 已 知 n 对 对 应 角 时 的 n 角 透视 问题 (PnA )。 
P3P[9.17], 、P3L[9.14] 和 PnA[9.95] 问 题 的 解析 解 已 经 得 到 。 在 [9.26] 中 可 以 找到 照相 机 未 经 校 
准 条 件 下 (但 假定 已 经 解决 了 准确 对 应 的 问题 ) 的 线性 方法 的 详细 解释 。 

对 于 更 加 困难 条 件 下 的 对 应 问题 ， 人 们 也 做 了 一 些 工 作 [9.34]。 在 这 种 情况 下 ， 不 仅 照 相 
机 没有 校准 ， 而 且 照 相机 的 拍摄 角度 导致 外 极 线 假设 都 未 必 成 立 。 此 时 ， 立 体 视觉 匹配 问题 
变 成 了 一 个 搜索 最 优 匹配 对 的 问题 ， 要 同时 用 上 辐射 能 测量 信息 和 几何 信息 来 缩小 搜索 空间 。 
9A.2.2 从 影 调 推测 三 维 形状 

从 影 调 推测 三 维 形状 最 初 是 由 Horn 提 出 的 ， 他 指出 一 些 关 于 光线 如 何 产 生 、 反 射 和 被 观 
赛 到 的 知识 可 以 提高 机 器 视觉 系统 的 性 能 。 考 察 图 9-19， 
并 假定 已 经 知道 : 





“光源 的 角度 

* 观察 者 的 角度 

* 测量 得 到 的 像素 的 亮度 

“ 光 散 射 的 定律 . aur 
。 表 面 反射 率 图 9-19 光线 与 表面 法 向 成 一 定 的 入 身 


你 能 得 出 表面 的 法 线 方向 吗 ? (如 果 你 得 到 了 每 一 fa 被 反 射 /散射 到 共 他 方向 


点 的 法 线 方 向 ， 又 如 何 确定 表面 呢 ? ) 
通过 解 微分 方程 可 以 找到 答案 。 首 先 我 们 把 表面 法 线 向 量 写成 x = mir1， 其 中 方向 向 量 


T 
oz 09z 
r=|—, —, 1 
ox dy 
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尽管 我 们 用 了 “亮度 ”这 个 术语 ， 但 它 实 际 上 设 有 严格 的 物理 定义 。 按 照 Horn[9.32]1， 我 
AHE “RE” (irradiance) 定义 为 落 到 表面 单位 面积 上 的 能 量 ， 度 量 单位 是 瓦 /平方 米 。 然 
后 我 们 可 以 定义 “辐射 率 ”(radiance) 为 单位 立体 角 内 单位 透视 面积 上 的 能 量 。 SIADR RR 
TEL BURUE EDU TREE TEUCE ROH "SERE" HEHOOR EI fS. 
通常 表面 的 反射 模型 是 已 知 的 或 可 度量 的 。 例 如 ， 观 察 到 的 亮度 与 观察 角度 无 关 ， 而 取 
决 于 入 射 光 的 角度 。 例 如 ， 反 射 亮度 与 人 射 光 的 亮度 有 如 下 关系 : 
R(x, y) = al(x, y)cos(0,) (9-59) 


这 样 ， 如 果 我 们 知道 入 射 光 的 亮度 1， 表 面 反射 率 a (表面 材质 ) 和 反射 光 的 亮度 R， 我 们 
就 能 解 出 6,， 并 由 此 推出 表面 法 向 ， 进 而 求 出 表面 。 公 式 (9-59) 中 的 反射 函数 称 为 朗 伯 模型 
(Lambertian model)。 注 意 朗 伯 模 型 中 不 涉及 观察 角度 。 另 一 个 我 们 熟悉 的 反射 函数 是 镜面 模 
型 : 

R(x, y) = al(x, y)6(6, - 85) (9-60) 

TRDE T ET Be At — DURER 与 人 射 角度 相等 时 才能 观察 到 反射 光 。 当 然 大 部 分 表 
面 尽 管 “ 闪 内 发 亮 "， 却 不 是 完全 的 镜面 反射 体 ， 因 此 一 个 也 许 更 实际 的 混合 表面 模型 是 : 

R(x, y) = al(x, y)cos*(8, -6o) (9-61) 


尽管 要 利用 反射 函数 ， 需 要 先 对 照相 机 进行 辐射 能 测量 校准 ， 但 这 个 要 求 本 身 并 不 是 主 
要 的 困难 。 为 了 考察 这 个 问题 的 复杂 度 [9.51]， 让 我 们 把 公式 (9-59) 中 的 入 射 角 展 开 为 人 射 
光 方 向 向 量 与 法 线 向 量 的 点 积 (原文 中 为 观察 向 量 和 法 线 向 量 的 点 积 -一 - 译 者 注 ): 


R(x, y) = al(x, y)cos(1- N) = al(x, De Sag ,下 + (9-62 ) 


假定 我 们 知道 入 射 光 (原文 中 为 观察 的 角度 一 一 译 者 注 ) 的 角度 (实际 上 我 们 最 多 只 能 知 
道 大 致 的 方向 )、 表 面 反射 率 和 入 射 光 强 ， 我 们 仍然 需要 解 一 个 偏 微分 方程 才能 确定 表面 方程 z。 

许多 论文 和 Horn 的 经 典 教科 书 [9.32] 都 致力 于 求解 从 影 调 推测 三 维 形状 问题 的 各 种 特例 。 
在 最 近 的 一 篇 论文 [9.100] 中 Zhang 等 人 综述 了 到 1999 年 为 止 这 个 领域 中 的 工作 。( 别 忘 了 ， 公 式 
(9-62) 也 是 一 种 特例 一 一 它 假定 亮度 与 观察 方向 无 关 。) 下 面 ， 我 们 将 讨论 另外 一 种 特例 一 
光度 测量 立体 视觉 (photometric stereo). 

光度 测量 立体 视觉 

在 很 多 情况 下 ， 认 为 表面 的 反射 光 强 与 表面 法 向 和 入 射 光 方向 之 间 夹 角 的 余弦 成 正比 是 
合理 的 : 

I(x.y) 2 r.(N; n) (9-63) 


其 中 Ni 是 光源 ;方向 的 单位 向 量 。 如 果 我 们 足够 幸运 有 一 个 具有 朗 伯 反射 表面 的 物体 ， 即 
满足 这 个 方程 ， 同 时 表面 具有 相同 的 反射 率 m， 与 人 射 光线 无 关 ， 我 们 就 可 以 利用 不 同 角度 光 
照 下 的 多 幅 图 像 确定 表面 法 线 方向 [9.35, 9.94]。 假 定 我 们 用 三 个 不 同 的 光源 照射 一 个 特定 点 
(每 次 用 一 个 光源 )， 并 分 别 测量 该 点 对 应 像素 的 亮度 。 在 该 像素 点 ， 我 们 得 到 一 个 由 三 个 观 

察 值 组 成 的 向 量 : 
=[1, LY (9-64) 


我 们 知道 每 个 光源 的 方向 。 假定 这 些 方向 由 从 表面 点 到 光源 的 单位 向 量 表示 ， 并 记 为 Ni、 
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NN, 和 Ns。 把 这 三 个 向 量 写 在 一 个 矩阵 中 ， 每 个 向 量 占 一 行 : 











N, My, hoz Ms 
N=|N,|=|n ^y na (9-65) 
N, 131 HS na 
现在 我 们 把 公式 (9-63) 写成 矩阵 形式 : 
I-nNn (9-66) 
因为 N 已 知 ， 且 nn 是 单位 向 量 ， 我 们 得 到 
n alN'T (9-67) 
一 旦 我 们 得 到 ro 了， 就 可 以 解 出 n 了 : 
n=—N"I (9-68) 


D 

注意 这 一 光度 测量 立体 视觉 的 推导 中 ， 假 定 对 每 个 角度 的 表面 反射 率 (albedo) 都 相同 。 
在 下 面 的 小 节 中 ， 我 们 将 演示 把 从 影 调 推测 三 维 形状 和 光度 测量 立体 视觉 结合 起 来 的 一 个 应 
用 ，、 那 时 将 不 需要 做 这 样 的 假设 。 例 如 ， 镜 面 反 射 提供 了 一 个 特殊 条 件 一 一 观察 角度 与 人 射 
角 刚 好 相等 。 这 使 得 特别 的 技术 可 以 得 到 应 用 [9.56]。 

但 如 果 我 们 用 三 个 以 上 光源 呢 ? 这 给 了 我 们 一 个 绝 好 的 机 会 讨论 一 个 重要 的 问题 ， 超 定 

如 果 我 们 实际 用 了 三 个 以 上 的 光源 ， 我 们 希望 能 够 去 掉 一 些 噪 声 和 (或 ) 测量 误差 的 影 
响 。 假 定 我 们 有 A 个 光源 ， 那 么 公式 (9-66) WTAE ZR Nn ;,1， 其 中 下 标 用 来 突出 
垂 阵 的 维度 ， 为 了 说 明 问 题 清楚 mn 被 去 掉 了 。 

现在 ， 我 们 不 能 简单 地 乘 以 N 的 逆 了 ， 因 为 N 不 是 方 阵 了 。 就 像 我 们 以 前 多 次 做 过 的 那样 ， 
我 们 改 为 构造 一 个 最 小 化 问题 .我们 要 找到 一 个 表面 法 线 向 量 n 使 得 测量 值 和 NN 与 4 之 间 的 点 
积 之 差 的 平方 和 最 小 。 当 然 ， 如 果 公式 (9-63) 处 处 都 严格 满足 ， 我 们 就 不 需要 做 最 小 化 了 。 
反 过 来 ， 如 果 公 式 (9-63) 真 的 处 处 满足 ， 也 没 必 要 进行 三 次 以 上 的 测量 了 。 我 们 认为 测量 
是 不 完美 的 ， 因 此 多 测 几 次 是 有 好 处 的 。 定 义 目 标 函 数 有 引入 寻找 最 优 解 的 目标 : 





E- vu, -N ny. = 0 - Nn)" (I - Nn) (9-69) 
展开 乘积 得 到 : 
E=I"I-2n'N'I+n'N'Nn (9-70) 
我 们 希望 找到 能 够 最 小 化 平方 误差 有 的 表面 法 向 上 ， 因 此 我 们 求 E 对 m 的 偏 微分 : 
V,E=-2N'I+2N'Nn (9-71) 
令 梯 度 为 零 ， 我 们 得 到 : 
N'Nn=N'I (9-72) 
Bp 
n=(N'N)'N'I (9-73) 


(在 你 还 没 意 识 到 的 时 候 ， 伪 逆 就 出 现 了 。) 这 可 是 绕 了 一 -大 圈 。 让 我 们 看 看 有 没有 简单 
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一 些 的 方法 : 
回 到 公式 (9-66)， 为 说 明 方便 ro 又 被 去 掉 了 ， 两 边 同时 乘 以 N": 
NI=N'Nn (9-74) 


两 边 同 时 乘 以 (WIN) :， 我 们 得 到 了 与 公式 (9-73) 相同 的 结果 。 

那么 我 们 为 什么 那么 麻烦 一 一 从 公式 (9-69) 到 公式 (9-72) 的 工作 似乎 是 个 浪费 ， 其 实 并 
非 如 此 。 我 们 如 此 做 的 目的 是 为 了 证 明 ， 乘 以 伪 逆 (VIA 'N" 可 以 得 到 超 定 线性 系统 的 最 小 均 方 
误差 估计 。 这 是 一 个 重要 的 结果 : 不 仅 在 光度 测量 立体 视觉 中 重要 ， 在 其 他 许多 应 用 中 也 如 此 。 

在 两 个 光源 条 件 下 用 影 调 推测 三 维 形状 

现在 我 们 将 举例 说 明 在 只 有 两 个 光源 的 条 件 下 如 何 用 影 调 推测 三 维 形状 。 我 们 在 这 里 不 
深入 讨论 物理 细节 ， 但 是 扫描 电子 显微镜 提供 了 一 个 很 好 的 应 用 实例 。 在 这 种 显微镜 中 会 生 
成 两 幅 图 像 一 -一 幅 来 自 二 次 电子 发 射 (SE)， 另 一 幅 来 自 反 向 散射 电子 (BSE)。 反 射 率 函 数 很 
容易 度量 。 

我 们 并 不 去 构造 显微镜 几何 结构 的 精确 模型 ， 只 是 在 显微镜 前 面 放 一 个 球 并 成 像 来 测量 
反射 率 函 数 Rse 和 Rsse。 假 定 表面 反射 率 已 知 (这 是 一 个 重要 的 假设 ), 在 图 像 SE 和 图 像 BSE 中 ， 
测 得 的 亮度 都 是 p 和 4 的 函数 。 例 如 ， 在 图 9-20 中 ， 特定 的 亮度 值 可 以 用 点 的 轨迹 来 表示 。 尽 
管 在 每 幅 图 像 中 ， 都 有 无 穷 多 种 可 能 的 p、4 值 ， 但 只 可 能 有 两 个 (p, 9) 对 能 够 同时 满足 两 幅 图 
像 中 测量 的 亮度 值 。 因 此 我 们 通过 定义 一 个 目标 函数 并 使 目标 函数 最 小 化 来 求解 表面 z(x, y). 
为 完成 这 个 任务 ， 我 们 定义 一 个 函数 p((p1, 491)，(p2, 92)) 来 表示 两 个 表面 法 线 方向 之 间 的 差异 
( 它 可 以 很 简单 ， 例如 可 以 用 两 个 向 量 夹 角 的 余弦 p((p, 40. Pa 9;)) = P: pitdi 92)。 然 后 ， 

我 们 考察 第 i 个 (p, 9) 对 所 定义 的 法 线 方向 与 垂直 于 表面 z(x*, y) 的 向 量 之 间 的 差异 ， 并 把 这 个 差 
异 写 成 : 


0z ð 
d;(x,y) = A(Z Ej gj 





图 9-20 在 SE 图 像 和 BSE 图 像 中 的 一 个 亮度 测量 值 对 由 p，4 的 轨迹 决定 (作者 感谢 B. Karacali 提 供 本 图 ) 


最 后 ， 假 定 图 9-20 中 的 两 条 曲线 相交 于 m 个 点 (我 们 把 m 作 为 x-，y 的 函数 是 为 了 提醒 读者 ， 
所 有 这 些 都 是 对 同一 个 +:，y 点 )。 我 们 定义 目标 函数 如 下 : 











m(x,y) =I 
E-5| $a.) +AR (9-75) 


允许 R 作 为 一 个 正则 项 ， 例 如 分 段 线性 。 

当 表 面 不 只 发 生 反射 时 ， 上 面 给 出 的 简单 模型 会 发 生变 化 。 例 如 ， 在 红外 波长 范围 内 
(或 许 还 有 一 些 其 他 的 波段 )， 从 表面 测量 到 的 能 量 是 反射 能 量 和 放射 能 量 (也 称 为 “黑体 辐 
Bt”) 的 混合 ， 其 中 放射 能 量 是 由 于 物体 表面 的 温度 产生 的 [9.48]。 

广义 柱 体 (GC) 的 概念 在 9.12 节 中 已 经 讨论 过 了 。 如 果 把 广义 柱 体 和 从 影 调 推测 三 维 形 
状 的 方法 结合 起 来 ， 可 以 改进 广义 柱 体 模型 的 功能 [9.23]。 
9A.2.3 结构 光 

在 第 4.2.2 节 已 经 介绍 了 结构 光 的 基本 概念 。 关 键 是 通过 控制 光照 消去 立体 视觉 中 的 一 个 
或 多 个 未 知 量 。 让 我 们 看 一 个 具体 的 例子 来 了 解 这 种 方法 是 如 何 工作 的 。 

我 们 要 解决 的 问题 是 机 器 人 视觉 中 的 一 个 应 用 : 机 器 人 要 拾 起 一 个 闪光 的 金属 涡轮 叶片 ， 
并 把 它 放 到 机 器 上 等 待 进一步 处 理 。 为 定位 叶片 ， 一 束 激光 通过 圆柱 形 透 镜 投射 到 物体 上 产 
生 一 条 狭长 的 水 平 光 带 。 图 像 生成 装置 的 几何 构造 如 图 9-21 所 示 [9.57]。 

如 有 果 没 有 叶片 ， 激 光 产 生 的 光 带 通过 载体 的 反射 将 在 图 像 中 形成 一 条 水 平 线 。 叶 片 的 存 
在 导致 光 带 的 垂直 位 移 。 垂 直 位 移 的 线 数 与 角度 差 成 正比 ， 由 此 可 以 求 出 角度 @。 已 知 两 个 
角度 和 照相 机 与 投影 仪 之 间 的 距离 x， 计 算 距 离 z 就 很 容易 了 : 

htan@ 


7" fan + tang alia 


尽管 这 个 关系 相对 简单 ， 但 事实 证 明 建立 一 个 z 与 行 位 移 之 间 关系 的 查找 表 则 更 加 简便 而 准确 

在 实际 应 用 中 遇 到 的 一 个 问题 是 由 涡轮 叶片 的 镜面 反射 引起 的 ; 光斑 的 亮度 比 图 像 中 其 
他 像素 的 亮度 高 几 个 数量 级 。 这 个 问题 的 解决 方法 是 让 激光 束 通过 一 个 偏振 光 过 滤器 。 通 过 
在 透镜 前 放置 一 个 这 样 的 过 滤器 ， 镜 面 反射 产生 的 光斑 的 亮度 被 前 弱 了 很 多 。 

在 这 个 利用 结构 光 的 例子 中 ， 一 次 只 投射 了 一 条 光 带 ， 因 此 不 会 出 现 混淆 不 同 投影 仪 产 
生 的 光 带 的 问题 。 但 是 ， 在 更 一 般 的 情况 下 ， 可 能 会 使 用 多 个 投影 仪 ， 此 时 ， 需 要 用 一 些 方 
法 保证 这 些 光 带 不 会 被 混淆 [9.7, 9.50]。 
9A.2.4 从 纹理 推测 形状 

纹理 ， 或 者 更 恰当 的 说 纹理 在 空间 的 变化 ， 可 以 用 来 刻画 三 维 形状 ， 如 图 9-22 所 示 。 在 
[9.82] 中 可 以 找到 很 漂亮 的 显示 如 何 从 纹理 推测 形状 的 图 片 集 。 当 然 ， 为 了 从 纹理 推测 形状 ， 
必须 先 抽取 纹理 基 元 ， 如 我 们 在 4A.2.2 节 中 讨论 的 那样 。 








图 9-21 叶片 的 存在 导致 水 平 光 带 在 图 像 图 9-22 纹理 的 变化 可 以 提供 关于 形状 的 信息 ( 引 自 [9.13]) © 
中 垂直 方向 上 产生 位 移 2003 Artists Rights Society(ARS), New York / ADAGP Paris 
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从 纹理 推测 形状 的 想法 在 恢复 三 维 运动 的 工作 中 也 能 够 找到 应 用 [9.80]， 还 可 以 参考 [9.77]。 
9A.2.5 从 聚焦 推测 形状 

很 显然 我 们 可 以 从 豪 焦 推 测 深 度 。 但 是 ， 想 把 算法 扩展 到 能 从 聚焦 得 到 和 鲁 棒 的 形状 是 很 
困难 的 。 主要 的 问题 是 如 何 精确 地 判定 每 个 像素 是 否 在 焦点 上 [9.52, 9.79]. 


9A.3 运动 分 析 与 跟踪 


运动 分 析 可 以 看 作 是 两 个 不 同 的 问题 。 第 一 种 情况 是 摄像 机 运动 而 物体 静止 。 此 时 提取 
摄像 机 的 运动 是 个 挑战 。 第 二 种 情况 中 ， 摄 像 机 是 静止 的 ， 物 体 在 运动 。 最 后 ， 还 有 二 者 的 
混合 一 一 摄像 机 和 物体 都 在 运动 。 运 动 分 析 与 立体 视觉 有 很 多 共同 的 问题 。 例 如 ， 在 立体 视 
觉 中 ， 对 应 是 个 主要 问题 ， 而 在 运动 分 析 中 ， 对 应 关系 建立 在 随时 间 变 化 的 场景 之 间 ， 而 不 
是 建立 在 因 摄 像 机 位 置 不 同 的 场景 之 间 。 

运动 分 析 的 方法 之 一 被 称 为 “ 光 流 "。 考 察 同一 物体 的 两 幅 图 像 ， 假 定 第 二 帧 中 的 图 像 与 
第 一 帧 相同 ， 只 不 过 发 生 了 位 移 : 


f(x +) = f(x) (9-77) 
把 左 式 展开 成 泰勒 序列 : 
AX) + F(a) + = f(x) (9-78) 
如 果 我 们 把 这 个 序列 截断 只 保留 两 项 并 求解 6， 可 得 
§ = LOA) (9-79) 
fo») 


这 里 有 一 个 严重 的 问题 。 如 果 梯 度 为 零 怎 么 办 ? 梯度 为 零 意味 着 在 图 像 的 该 点 处 没有 任 
何 信息 。 想 像 你 通过 望远镜 观察 一 辆 正在 经 过 的 牵引 式 半 拖 车 (a semi-tractor-trailer truck), 
望远镜 的 视野 仅 容 你 看 到 卡车 上 一 块 很 小 的 面积 ， 例 如 几 平 方 英寸 。 当 挡 板 经 过 时 ， 你 得 到 
信息 ， 知 道 发 生 了 运动 。 然 而 ， 当 拖车 的 顶端 经 过 时 ， 在 一 段 相当 长 的 时 间 内 你 看 不 到 任何 
变化 。 

在 计算 和 应 用 光 流 时 遇 到 的 另 一 个 麻烦 是 在 二 维 空间 中 ， 公 式 9-79 变 成 了 微分 方程 ( 参 
见 [9.10])。 为 了 解决 这 些 问题 ， 研 究 光 流 的 人 们 尝试 了 各 种 方法 试图 把 局 部 度量 得 到 的 信息 
组 合 起 来 推测 全 局 知识 ， 例 如 利用 聚 类 识别 共同 运动 的 点 集 [9.41]。 正 如 第 4 章 讨论 过 的 那样 ， 
你 可 以 匹配 点 或 边界 。 例 如 ，Quan[9.61] 匹 配 二 次 曲线 ; Taylor 和 Kriegman[9.85] 匹 配 线段 ， 
Zhang[9.99] 也 如 此 ; Smith 和 Nandha Kumar[4.35] 匹 配 纹理 。[4.35, 9.3] 中 讨论 了 运动 分 割 。 

在 二 维 空间 中 ， 公 式 (9-77) 中 的 6 变 成 了 一 个 向 量 。 光 流 算法 生成 了 一 个 视差 场 
(disparity field) ， 这 是 一 个 向 量 场 ， 它 把 每 个 像素 和 一 个 向 量 联系 起 来 [9.20]。[10.19, 17.13, 
17.14] 中 探讨 了 光 流 法 的 有 效 实现 问题 ，[17.60] 中 还 包括 了 变形 体 。 

移动 的 摄像 机 的 图 像 平面 上 某 一 点 处 的 光 流 为 : 


u, -二 47+B9 (9-80) 
Fi rp Sake 


_ . a 2 
afg 0 M a -| Xj, ü*xj) y, (9-81) 


0*5) -xy  -x, 
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完全 由 摄像 机 决定 。7T 是 摄像 机 的 平移 速度 ，Q 是 摄像 机 的 旋转 速度 。z; 是 在 摄像 机 坐标 
Gu, Y) 处 图 像 点 的 深度 。 有 几 位 研究 者 致力 于 解决 确定 T 和 的 问题 [9.36, 9.37]。Earnshaw 和 和 
Blostein[9.15] 比 较 了 这 些 方 法 并 介绍 了 一 种 新 的 变种 。 

运动 可 以 从 拖 影 (smear) 中 估计 出 来 。Chen 等 [9.9] 观 察 到 : “心理 生理 学 研究 表明 人 类 的 视 
觉 系 统 会 整合 120 毫 秒 内 的 视网膜 图 像 。 由 于 这 样 的 整合 ， 运 动 拖 影 在 所 难免 。 据 报告 当 人 类 视 
觉 系统 看 到 一 幅 由 于 运动 产生 模糊 的 图 像 时 ， 在 短 时 间 内 (842025 P») 感知 到 的 拖 影 会 随 着 
观察 时 间 的 累积 而 增加 。 但 在 更 长 的 时 间 内 ， 观 察 到 的 图 像 反 而 变 得 清晰 了 。 我 们 推出 人 类 视 
觉 系统 在 对 图 像 进行 一 种 去 模糊 或 锐 化 的 操作 。” 这 一 观察 催生 了 “从 拖 影 恢 复 运 动 ”算法 [9.9]。 

最 近 ， 在 运动 分 析 的 文献 中 可 以 观察 到 人 们 关注 的 焦点 逐渐 从 分 析 图 像 或 摄像 机 的 运动 
转移 到 了 标记 正在 发 生 的 动作 ， 即 关注 点 从 “怎样 运动 ”转移 到 了 “发 生 了 什么 ”。 


从 运动 推测 形状 

在 从 运动 推测 形状 的 研究 领域 中 通常 假定 对 应 的 问题 已 经 解决 了 : 即 某 些 点 已 经 被 识别 
出 来 了 ， 并 在 每 一 帧 中 都 找到 了 对 应 点 。 在 这 里 ， 我 们 将 描述 由 Kanade 与 其 合作 者 提出 的 从 
运动 推测 形状 的 方法 [9.60, 9.86]。 这 里 的 描述 建立 在 一 个 不 真实 的 假设 基础 上 : 物体 正 交 
(垂直 ) 投影 到 图 像 平面 上 。 我 们 引入 这 个 假设 是 因为 在 这 种 情况 下 容易 理解 。 不 过 ， 如 果 你 
要 实现 这 一 算法 ， 请 参考 [9.60] 看 对 透视 投影 算法 需 做 哪些 改动 。 还 可 以 参考 Soatto 和 
Peronaf9.72, 9.73] 全 面 了 解 近 期 的 研究 。 

在 下 面 的 推导 中 ， 物 体 是 静止 的 ， 只 有 摄像 机 在 运动 。 空 间 坐 标 为 *, 的 点 p 被 投影 到 第 f 
帧 图 像 的 坐标 (up vi) 处 。 摄 像 机 在 移动 ， 在 每 一 帧 ,摄像机 位 于 上 处 ， 它 的 朝向 由 三 个 向 
Bd, jn ok) 描述 。 如 果 我 们 已 知 "， 就 可 以 得 到 z 的 摄像 机 坐标 ， 公 式 如 下 : 


up =i (S, 二) vg =F; (8, t) (9-82) 
定义 
x,--ti, y=- dy (9-83) 
我 们 可 以 把 公式 (9-82) 重新 写成 
ug = HFS, +X, Vip = FPS, Y, (9-84) 
现在 我 们 有 一 个 逆 问 题 : 已 知 图 像 坐 标 ， 我 们 必须 从 中 求 出 摄像 机 的 空间 位 置 和 物体 点 
9 空间 坐标 。 
把 图 像 点 的 所 有 观察 值 组 成 一 个 矩阵 : 
My c gw, 
W- Up, t Upp 
Va 7t Vip (9-85) 
Yep ot Vep 


TEE FAP 4 Fg. BAT Se BUB BEDA 4e AE — 7 n YES Fs Be p D AER BU, 
而 每 一 行 是 所 有 点 在 同一 帧 中 的 坐标 的 列表 。 然 后 ， 我 们 定义 一 个 矩阵 M， 它 是 一 个 2F x 3 的 
年 阵 ， 它 的 行 是 向 量 和 广 向 量 ， 再 定义 一 个 5 矩阵 ， 它 是 -- 个 3 x P 维 的 “形状 箱 阵 ”， 它 的 列 
Aes. Heu. EXA Hi 和 y 组 成 的 2F 维 的 移动 向 量 Z。 有 了 这 些 定义 ， 我 们 可 以 把 所 
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有 点 的 公式 (9-84) 重 写 成 
W = MS+T1, - (9-86) 
其 中 1 是 一 个 长 度 为 P 的 全 1 向 量 。( 注 意 T 与 全 1 的 行 向 量 的 乘积 是 一 个 外 积 ， 构 造 出 一 个 
2F x P 的 矩阵.) 
如 果 我 们 把 物体 的 重心 移 到 原点 (为 什么 不 呢 ? 原点 的 位 置 可 以 任意 选择 ) ， 得 到 


1 P 
CRAS -0 (9-87) 
Pay? 


这 样 设置 的 原点 位 置 可 以 使 我 们 立即 解 出 7， 观察 到 由 于 $ 的 行 和 为 零 ， 琴 的 任意 一 行 的 
和 就 只 是 PT7， 而 7 的 任意 一 行 就 可 以 由 三 的 相应 行 除 以 P 得 到 。 现 在， 从 厂 中 减 去 7 得 到 一 个 
新 的 矩阵 w ilie : 
|. W- MS (9-88) 
用 奇异 值 分 解 ， 我 们 可 以 找到 一 种 最 合适 的 富 的 分 解 ， 记 作 WS MS 。 不 幸 的 是 ， 这 不 
一 定 是 我 们 想 要 的 M 和 S， 因 为 我 们 在 MM S 之 间 插 入 任意 矩阵 的 乘积 44-! 都 不 会 改变 二 者 
的 乘积 。 因 此 我 们 要 搜索 一 个 矩阵 4 使 得 
M-MA S=4 5 (9-89) 
为 了 找到 4 ， 我 们 利用 M 的 行 向 量 是 摄像 机 的 方向 向 量 因 此 它们 彼此 正 交 的 条 件 。 有 了 
这 些 额 外 的 约束 ，A4 可 以 确定 了 ， 这 样 我 们 就 知道 所 有 P 个 点 的 三 维 空间 坐标 和 每 一 帧 时 摄 
像 机 的 角度 了 。 


9A.4 术语 
幅 照 度 irradiance 
光 流 optic flow 
透视 perspective 
光度 测量 立体 视觉 photometric stereo 
fit pseudo-inverse 
.反射 率 reflectivity 
从 影 调 推测 三 维 形状 shape from shading 
结构 光 structured illumination 
作业 9.1 


对 9.3 节 中 描述 的 每 个 特征 ， 判 定 该 特征 对 以 下 变换 是 否 具 有 不 变性 :1) 在 视 平面 内 的 旋 
转 ; 2) 在 视 平面 内 的 平移 ; 3) 平面 外 的 旋转 (如果 物 体位 于 一 个 平面 上 则 是 仿 射 变换 ) ; 4) 
缩放 。 


作业 9.2 


设 两 点 之 间 的 欧 氏 距离 由 d(Pi, PARR (在 下 一 题 中 你 也 许 会 用 到 它 )。 设计 一 个 单调 的 
ERP), P,) 把 所 有 的 距离 映像 到 0 和 1 之 间 。 即 ， 如 果 d(Pi, P, = o, NIRP., P) = 1; 如果 
d(P,, Pj) - 0, 则 RCP,, Pj) = 0. 











# K 195 

对 你 设计 的 度量 ， 说 明 你 将 如 何 证 明 它 是 一 个 正规 的 度量 。 只 要 设 定 问 题 即 可 ， 如 果 你 
真 的 证 明 出 来 了 可 以 得 到 加 分 。 

作业 9.3 


一 个 区 域 边界 上 的 五 个 点 如 下 : (1,1), (2, 1), (2, 2), (2, 4). (3, 2)。 用 特征 向 量 
方法 将 这 个 点 集 拟 合成 一 条 直线 ， 从 而 找到 这 个 区 域 的 主轴 。 找 到 主轴 后 ， 估 计 这 个 区 域 
的 纵横 比 。 


作业 9.4 
写 出 下 图 的 链 码 。 


N 
Nn 
o 


作业 9.5 


讨论 下 面 的 假定 : 设 P, 和 Ps, 是 区 域 的 两 个 极点 并 决定 了 区 域 的 直径 ， 那 么 P, 和 P, 一 定位 于 
区 域 的 边界 上 。 


作业 9.6 

从 公式 (9-19) 推出 公式 (9-20). 

作业 9.7 

对 称 性 的 亮度 轴 (intensity axis of symmetry) 与 中 轴 之 间 有 何 区 别 ? 
作业 9.8 

在 表 9-1 中 ， 证 明 不 变 矩 9, 对 缩放 变换 不 变 。 

作业 9.9 


你 的 老师 将 指定 一 幅 只 含有 一 个 区 域 的 图 像 ， 该 区 域内 所 有 像素 的 亮度 均 为 单位 值 ， 背 
景 亮度 均 为 零 。 

1) 计算 前 景区 域 的 七 个 矩 。 

2) 将 前 景区 域 绕 其 重心 分 别 旋转 十 度 、 二 十 度 和 四 十 度 ， 计 算 结 果 图 像 的 不 变 矩 。 你 得 
到 了 什么 结论 ? 


作业 9.10 
证 明 公式 (9-35) 对 下 面 的 变换 具有 不 变性 : 1) 平移 ; 2) 旋转 ;3) 放 缩 。 
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作业 9.11 
图 9-12 的 标题 正确 吗 ? 
作业 9.12 
两 个 轮 廊 A 和 B 已 经 被 测量 出 来 并 进行 了 编码 。 然 后 ， 健 里 叶 描 述 子 也 计算 出 来 了 。 描 述 
子 如 表 9-3 所 示 。 
表 9-3 傅 里 叶 描 述 子 的 复数 值 
物体 A 物体 B 

5.00+i0.00 5.83+i1.80 

4.2+i1.87 3.69+i2.57 

3.86+i1.00 3.48+i2.00 

2.95+i2.05 2.30+i2.77 

3.19+i1.47 2.70+i2.24 





这 两 个 物体 有 可 能 代表 彼此 的 相似 变换 。( 相似 变换 等 价 于 刚体 运动 ， 只 有 平移 和 旋转 . ) 
它们 可 能 是 彼此 的 仿 射 变换 吗 ? ( 仿 射 变换 是 一 种 线性 变换 ， 不 仅 包 括 刚体 运动 ， 还 可 能 包 
括 坐 标 轴 的 比例 变换 。 如 果 两 个 坐标 轴 (在 二 维 空间 中 ) 的 比例 变换 相同 ， 就 是 缩放 。 如 果 
二 者 的 比例 变换 不 同 ， 就 是 剪 切 。) 

如 果 你 判定 这 两 套 描 述 子 表示 的 是 相同 的 形状 ， 可 能 经 过 了 变换 ， 那 么 描述 并 证 明 从 A 到 
B 经 过 了 什么 类 型 的 变换 。 如 果 你 认为 它们 表示 的 不 是 相同 的 形状 ， 说 明 原 因 。 


作业 9.13 


一 个 单位 半径 、 高 度 为 10 的 圆柱 体 垂 直 放 置 在 原点 处 ， 已 知 圆柱 体 的 表面 为 朗 伯 反 射 体 。 
即 ， 反 射 光 的 亮度 与 观察 角度 无 关 ， 只 与 人 射 角 有 关 ， 并 遵循 如 下 的 关系 让 = alcos8,, pa 
是 表面 反射 率 ，1 是 光源 的 强度 。 这 个 圆柱 体 的 表面 反射 率 是 个 常数 。 

摄像 机 位 于 x=0， y=-2, z- 2 的 位 置 上 ， 摄 像 机 的 光 轴 指向 原点 。 


y 






在 这 附近 观察 
到 最 大 亮度 
Vly 
AN 





_ 光源 距离 原点 4 个 单位 ， 并 已 知 为 朝 各 方向 均匀 发 光 的 点 光源 。 在 圆柱 体 的 图 像 中 最 亮 的 
点 位 于 29 度 角 处 。 光 源 在 哪里 ”为 方便 起 见 坐 标 系统 的 简 图 显示 在 插图 中 。( 注 意 简 图 不 是 按 
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比例 的 ， 甚 至 不 保证 是 正确 的 。) 
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第 10 章 一 致 性 标号 


On axis, as the planets run, 

Yet make at once their circle round the sun; 
So two consistent motions act the soul; 
And one regards itself and one the whole. 


Hexander Pope 


在 计算 机 视觉 中 一 个 最 具有 挑战 性 的 问题 是 “局 部 /全 局 性 推理 问题 。 计 算 机 视觉 中 遇 到 
的 问题 就 像 “盲人 与 大 象 ”这 个 著名 的 寓言 所 描述 的 那样 ， 要 从 一 组 局 部 度量 来 推断 景物 的 
全 局 性 性 质 。 换 句 话说， 在 第 8 章 与 第 9 章 分 别 讨 论 了 分 割 与 形状 分 析 的 问题 之 后 ， 下 一 个 问 
题 是 ， 如 何 用 从 分 割 与 形状 分 析 方 法 得 到 的 物体 局 部 信息 ， 来 解释 整个 景物 ， 这 些 景物 是 由 
多 个 物体 组 成 的 。 要 解决 局 部 到 全 局 推理 问题 ， 需 要 使 用 一 致 性 概念 。 


10.1 一 致 性 


首先 要 说 明 一 下 所 使 用 的 符号 ， 一 组 物体 表示 为 {x1, x,, …, xz ， 物 体 的 标号 集 是 {2,，]， 
…, A}。 为 了 方便 暂且 假设 景物 中 每 个 物体 只 可 能 有 一 个 标号 ,不同 标 号 之 间 彼 此 无 关 ， 以 
及 每 个 物体 都 有 一 个 标号 。 将 赋予 标号 的 物体 用 有 序 对 (x,， 罗 ) 表示 ， 该 例子 是 说 第 ;个 物体 
被 赋予 第 j 种 标号 。 

下 面 用 对 线条 图 中 的 物体 标号 问题 作为 一 致 性 标号 的 一 个 例子 。 从 机 器 视觉 研究 的 最 初 
阶段 开始 人 们 就 对 线条 图 分 析 问 题 感 兴趣 , 这 有 三 方面 的 原因 : 首先 ,人 们 能 够 通过 观察 线条 
图 轻易 地 对 其 作出 解释 ;其 次 心理 学 实验 [10.1，10.6，10.10] 已 经 令 人 信服 地 证 实 ， 正 是 那 
些 亮 度 变化 最 明显 的 地 方 为 物体 的 形状 提供 了 最 多 的 信息 ， 并 且 将 边缘 转换 成 线条 ， 也 是 相 
对 较 容易 做 到 的 ; 第 三 ,线条 图 极 大 降低 了 图 像 中 的 数据 量 (但 信息 并 不 因此 而 明显 下 降 )， 
并 且 人 们 认为 学 会 如 何 处 理 线条 图 分 析 很 可 能 会 使 分 析 算法 运行 较 快 。 线 条 图 分 析 的 基础 性 
工作 大 多 是 在 20 世 纪 60 年 代 末 期 到 20 世 纪 70 年 代 完 成 的 [10.5，10.81 ， 但 是 仍然 需要 继续 发 
展 [10.17]。 

在 本 章 讨论 中 ， 线 条 图 的 每 条 线 可 以 赋予 三 种 标号 ; 凸 的 (是 指 在 三 维 中 的 一 条 边 是 指 
向 观察 者 的 ， 类 似 于 一 张 桌子 的 角 )、 灵 的 (三 维 中 的 一 条 边 是 指向 离开 观察 者 的 方向 ， 例 如 
一 个 房间 的 墙 与 地 板 形成 的 交点 ) 或 遮挡 边 〈 这 条 边 出 现 是 由 于 一 个 表面 被 另 一 表面 部 分 庶 
挡 造 成 的 ) 。 例 如 考察 图 10-1 所 示 的 一 个 例子 。 在 该 图 中 由 凸 边 形成 的 线 用 “+” 符 号 表示 ， 
凹 边 则 用 “- ”号 表示 ， 遮 挡 边 则 用 箭头 符号 表示 。 箭 头 的 方向 用 来 表示 该 边 两 侧 的 遮挡 关 
系 ， 它 的 定义 是 如 果 你 沿 这 个 箭头 所 指 方向 移动 ， 则 在 你 的 左边 是 被 遮挡 的 表面 ， 该 图 并 没 
有 对 所 有 边 都 加 以 标号 ， 这 是 故意 这 样 做 的 ， 目 的 在 于 表示 ,在 给 定 某 种 物体 、 其 线条 图 以 及 
对 这 些 线 的 三 种 定义 的 条 件 下 , 线条 图 分 析 的 任务 是 要 让 计算 机 学 会 像 人 们 很 容易 做 到 的 那 
样 ， 对 景物 中 图 形 的 线条 自动 做 出 解释 。 
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as te 
en A 
图 10-1 用 来 表示 凸 、 蔬 与 遮挡 边 的 线条 图 以 及 对 该 幅 图 的 标号 


在 讨论 此 类 问题 时 ， 需 要 说 明 不 幸 的 歧义 性 问题 ， 它 是 因 自然 语言 引入 的 。 标 号 
(Labeling) 这 个 术语 可 以 有 两 种 意义 ， 它 可 以 是 指 赋予 一 个 物体 、 一 对 物体 或 整个 景物 的 标 
号 本 身 ， 但 也 可 以 指 赋 标 号 这 个 过 程 ( 译 者 注 : 最 后 一 句 在 原文 没有 ， 是 译 者 根据 文章 加 上 
的 )。 但 是 利用 上 下 文 可 以 明白 该 术语 在 所 讨论 上 下 文中 的 含义 。 为 了 实现 为 景物 赋予 标号 的 
目的 ， 必 须 考虑 一 致 性 (consistency) 这 个 概念 。 对 景物 中 两 个 物体 同时 赋予 标号 ， 要 考虑 
所 赋 标 号 之 间 的 兼容 性 (compatibility) ， 这 里 用 一 种 函数 r(i, A 
j. 4) 表示 。 如 果 两 个 标号 能 并 存 (相互 兼容 ) 则 该 函数 定义 为 1， < 
如 它们 不 能 并 存 ， 则 函数 定义 为 1。 例 如 r(i, +, i-)=-1. BR 
为 物体 环 能 同时 标 为 目的 与 四 的 (参见 图 10-2)。 如 果 Z, Zirt， Po A ERE 
A, j, A)=n(n -1)， 那 么 称 这 幅 图 像 的 标号 是 完备 的 (complete) ene 
与 一 致 的 (consistent)， 也 就 是 说 ， 图 中 物体 的 所 有 标号 都 是 可 允许 存在 的 ， 在 本 章 中 ,会 用 
到 兼容 函数 的 若干 种 不 同 的 定义 版 本 。 

下 面 进一步 深入 讨论 线条 图 标号 的 细节 ， 尽 管 要 标号 的 是 线条 图 中 的 线条 ， 实 际 上 还 要 与 顶 
点 一 起 考虑 才 有 意义 。 一 个 顶点 是 几 条 线 交汇 之 处 。 如 果 每 条 线 可 以 有 4 种 标号 (四 、 上 由、 第 头 
入 与 第 头 出 )， 则 一 个 由 三 条 线 交汇 的 顶点 就 会 有 4 种 标号 法 。 然 而 并 不 是 所 有 这 些 组 合 在 物理 上 
是 可 能 出 现 的 。 在 图 10-3 到 图 10-5 中 标 出 “Y”“ 弯 头 ”与 “箭头 ”顶点 在 物理 上 可 能 成 立 的 所 有 
种 类 ， 而 使 用 这 些 信息 可 以 有 各 种 不 同 的 方法 。 一 种 方法 是 用 深度 优先 搜索 ， 其 相应 算法 为 : 


Y Y NS ONT OY 
YY YOY 


图 10-3 在 物理 上 能 够 成 立 的 所 有 Y 形 类 接点 














EL CM A 


YN ZA (Aw AN AN 
Ax 个 J 


图 10-4 在 物理 上 能 够 成 立 的 所 有 弯 头 (ELL) 类 接点 
AAS ARN ADR RAS 
个 个 个 站 个 个 个 


图 10-5 在 物理 上 能 够 成 立 的 所 有 箭头 类 接点 


1) 选择 一 个 起 始 顶 点 〈 称 其 为 顶点 1)， 然 后 对 到 达 该 顶点 的 所 有 线条 用 物理 上 可 成 立 的 
方式 标号 。 2 
2) 选择 顶点 ! 的 一 个 相 邻 顶点 ( 称 其 为 顶点 2) ,对 到 达 该 顶点 的 所 
有 线条 用 物理 上 可 成 立 的 方式 标号 ， 并 且 所 标的 号 要 与 先前 的 标号 一 
致 ， 也 就 是 从 顶点 1 到 顶点 2 的 线 只 能 有 一 个 标号 。 
3) 如 果 不 可 能 有 一 致 的 标号 ， 则 返回 。 
对 图 10-6 中 所 示 的 三 维 物体 的 标号 过 程 在 图 10-7 中 说 明 ， 读 过 程 1 
从 为 顶点 1 有 关 的 线条 选择 一 种 可 能 的 标号 开始 。 给 定 了 该 种 标号 后 对 图 10-6 用 来 给 出 标号 
顶点 2 的 线 可 以 选择 任何 一 种 标号 ， 但 条 件 是 在 顶点 1 与 2 之 间 的 连 线 的 一 致 性 的 物体 
符号 必须 为 “+” 号 ， 如 图 10-7 中 第 2 步 所 示 。 对 图 所 示 顶 点 2 可 能 的 标 
号 种 类 中 ， 假 设 选择 了 左边 的 那 一 种 ， 那 么 对 顶点 3 的 选择 必须 与 顶点 ! 与 2 两 者 选择 都 一 致 。 
至 此 为 了 确定 对 顶点 4 的 标号 ， 则 必须 为 顶点 3 假设 一 个 “正确 ”的 标号 。 假 设 仍 取 图 中 左边 
那 一 种 。 这 样 一 来 ， 为 顶点 4 有 关 线 条 选择 的 标号 必须 与 (假设 正确 的 ) 顶点 3 与 顶点 1 的 标号 
相 一 致 。 由 于 到 达 顶 点 4 的 线 中 已 有 两 条 线 的 标号 已 经 确定 ， 因 此 对 另 一 条 线 只 有 一 种 能 维持 
一 致 性 的 标号 选择 ， 即 将 第 3 条 线 确 定 为 指向 该 顶点 的 箭头 标号 。 
+ 
OW 
~~ 


-与 顶点 2 有 关 线 的 
2 FA A VT eques 


3 
一 些 可 能 标号 


4 与 顶点 3 有 关 线 的 
+ 


w 


4 j 
? 


图 10-7 图 10-6 中 物体 的 可 能 标号 
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假如 到 了 为 顶点 4 标号 并 发 现 设 有 可 能 的 标号 ， 则 说 明 前 面 的 某 种 假设 不 成 立 。 这 就 需要 
返回 前 面 对 顶 点 3 进行 重新 标号 ， 如 果 所 有 顶点 3 的 标号 都 不 能 满足 对 顶点 4 进行 一 致 性 标号 ， 
则 需要 返回 到 更 前 面 ， 对 顶点 2 重新 标号 。 依 此 类 推 ， 直 到 找到 所 有 顶点 的 一 致 性 标号 ， 如 果 
没有 找到 ， 则 该 物体 没有 一 致 性 标号 。 

由 于 人 们 早期 开始 研究 的 是 线条 标号 ,许多 研究 人 员 随 后 提出 了 一 些 增强 措施 ， 例 如 
Parodi 和 Piccioli[10.13] 表 明 ， 如 果 消 隐 点 能 够 确定 ， 以 及 有 一 点 的 三 维 坐标 已 知 ， 则 所 有 标 
号 点 的 三 维 坐标 都 可 以 找到 。 

10.2 松弛 法 标号 

在 讨论 了 一 致 性 标号 原理 之 后 ， 可 以 把 这 种 概念 加 以 推广 ， 使 得 一 个 县 体 的 物体 可 以 具 
有 不 止 一 种 标号 的 可 能 性 。 为 了 做 到 这 一 点 ， 定 义 一 个 变量 p; 0). ， 并 用 它 表 示 物 体 ; 具 有 标号 
Àj 为 此 要 讨论 某 些 术 语 以 便 继续 讨论 下 去 。 可 能 读者 会 听 到 把 P (%) 解 释 成 物体 :具有 标号 罗 
的 概率 的 说 法 。 尽 管 有 时 是 有 这 种 说 法 ， 但 是 这 个 术语 是 不 正确 的 。 的 确 p 具 有 与 概率 一 致 的 
范围 0 < p; (A) <1, 以 及 它 的 积分 值 为 1， Xj Pi (A)=1, 但 这 里 并 没有 随机 过 程 ， 其 实 p， (A) aE 
我 们 对 做 出 如 此 标号 是 否 做 得 对 的 一 种 可 信和 度 。 随 着 对 问题 的 了 解 逐 渐 加 深 ， 以 及 一 致 性 的 
约束 逐渐 增强 ， 和 希望 这 些 p 的 值 能 从 最 初 假设 的 在 0 到 1 之 间 的 连续 值 ， 逐 渐变 成 不 是 0 就 是 1， 


10.2.1 利用 一 致 性 来 修正 标号 


线性 松弛 法 - 

使 用 一 致 性 的 概念 的 第 一 种 方法 ， 是 建立 一 个 线性 系统 来 综合 考虑 初始 概率 与 一 致 性 。 
把 物体 i 具有 ?标号 以 及 j 物 体 具有 标号 之 间 的 兼容 性 定义 成 r，(i, A j, A) (其 中 下 标 L 表 示 读 
兼容 性 是 在 线形 松弛 法 中 使 用 的 )， 并 且 要 求 0<ri< 1 以 及 


X63.) A=] HRE ij A (10-1) 


线性 松弛 过 程 是 按 下 式 迭 代 地 修改 各 种 标号 赋值 权重 的 过 程 
Pid) = Y, Yr As j ADP A) (10-2) 


很 容易 看 出 来 式 (10-2) 是 一 致 性 矩阵 与 加 权 向 量 的 乘积 。 参 考 文献 [10.15] 中 已 经 证 明 
重复 地 应 用 这 个 式 子 ， 则 加 权 向 量 会 收敛 到 特征 值 为 1 对 应 的 特征 向 量 。 在 某 些 条 件 下 ， 一 至 
性 矩阵 是 可 以 通过 学 习 得 到 的 [10.14] ， 但 不 幸 的 是 这 并 不 能 给 我 们 以 我 们 所 要 的 信息 。 那 么 
怎样 能 做 到 迭代 结果 独立 于 初始 条 件 呢 ? 

非 线性 松弛 法 

在 非 线性 松弛 法 中 ， 仍 然 要 使 用 一 致 性 原则 来 修改 标号 的 赋值 过 程 。 与 线性 松弛 法 相同 ， 
同样 需要 开发 一 个 算法 把 标号 赋值 的 可 信和 度 能 根据 度量 的 结果 收敛 至 0 或 1。 首 先 修改 规则 要 
有 一 个 新 的 定义 。 在 算法 的 第 kt1 步 兢 代 使 用 

PECAT +g 2] (10-3) 
S pr OU aU 


式 中 的 分 母 的 作用 只 是 使 p; 的 值 保持 在 0~1 的 范围 内 。 式 中 的 g; () 项 表示 p; (A) SHAH 


pP (A)= 
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他 物体 的 标号 之 间 兼 容 性 的 一 种 度量 。 尽 管 p 的 值 是 严格 为 正 的 ， 而 4 的 值 却 可 正 可 负 。 如 果 4， 
(4) 为 负 值 ， 则 表示 Pp; 用 入 标号 与 其 他 大 部 分 标号 不 相 容 。 


qi (A) = Xe | (10-4) 


式 中 仍 有 一 个 兼容 性 函数 r(.)， 这 在 本 章 前 面 已 见 过 ,但 加 了 一 个 下 标 N 是 表示 ， 在 非 
线性 松弛 过 程 中 使 用 。 其 间 的 不 同 在 于 7 的 值 不 仅 限于 一 1 与 +1， 而 可 取 其 间 任 何 值 。 如 果 两 
个 标号 赋值 之 间 是 完全 一 致 的 ， 它 们 的 兼容 性 应 为 1， 如 果 它 们 的 标号 赋值 是 完全 不 一 致 的 ， 
兼容 性 就 应 为 - 1。 如 果 对 某 一 个 物体 的 标号 赋值 并 不 影响 其 他 物体 ， 兼 容 性 则 为 0。 接 下 来 
考虑 式 (10-4) 的 含义 。 

AX (10-3) 已 知 ， 对 物体 i 标号 4 的 可 信和 度 的 改变 取决 于 4 (4) ， 而 式 (10-4) 表明 它 是 i 
物体 相应 标号 ， 与 其 他 所 有 当前 标号 赋值 的 兼容 程度 之 和 。 请 注意 式 子 中 兼容 性 与 其 他 标号 
正确 性 的 可 信 度 相 乘 。 这 也 就 是 说 ， 如 果 我 们 对 物体 j 的 标号 的 可 信 度 很 低 ， 那 么 就 不 用 管 它 
与 物体 ;的 标号 之 间 的 兼容 程度 。 式 中 引入 Cvy 是 为 了 方便 ， 它 只 是 对 物体 i 受 物体 j 的 影响 程度 
进行 加 权 ， 而 不 管 它们 之 间 是 什么 标号 。 如 果 我 们 预先 就 知道 物体 ;与 /彼此 间 没 有 影响 ， 那 么 
该 系数 值 就 可 以 为 零 。C; 是 一 个 选择 项 ， 如 果 将 其 的 作用 归并 到 兼容 性 函数 中 去 ， 该 系数 也 
就 不 会 出 现 了 。 

10.2.2 标号 问题 示例 

在 本 市 结合 一 些 例 子 讨论 兼容 函数 r 的 选择 方法 。 
模型 匹配 问题 

假设 你 已 经 将 距离 图 像 分 割 成 平面 面 块 。 现 在 希望 确定 一 组 模型 中 哪 一 个 与 所 观察 的 物 
体 匹配 得 最 好 。 假 设 分 割 过 程 产生 的 面 块 是 平面 的 ， 由 于 图 像 是 距离 图 像 ， 因 此 可 以 计算 这 
些 面 块 在 三 维 空间 中 的 朝向 。 于 是 要 解决 的 问题 变 成 在 模型 (或 一 组 模型 ) 中 寻找 与 图 像 中 
一 组 平面 块 匹 配 得 最 好 的 一 组 平面 表面 块 。 此 时 图 像 中 的 物体 是 面 块 ， 模 型 中 的 区 域 (的 标 
号 ) 是 要 赋 给 这 些 面 块 的 标号 。 下 面 是 一 种 定义 标号 兼容 性 的 方法 。 设 想 分 别 将 图 像 面 块 A 赋 
予 模 型 区 域 1， 图 像 块 B 赋 予 2 时 涉及 兼容 性 的 一 些 方面 ， 看 看 面 块 A 是 否 与 B 毗 邻 ， 以 及 区 域 1 
与 区 域 2 是 否 毗 邻 ? 这 里 有 如 图 10-8 所 示 的 4 种 可 能 性 。 如 果 图 像 中 两 个 区 域 是 相 邻 的 ， 而 相 
应 两 个 区 域 在 模型 中 也 相 邻 的 ， 那 么 可 以 按 如 下 式 定义 两 组 标号 的 兼容 性 。 


[^ m4 图 像 中 两 面 块 不 共 界 ， 而 模型 
EEG Ka HRB ER 7-0 


als! a 图 像 中 两 面 块 相 邻 ， 而 模型 中 
"e Cg 二 者 不 共 界 : r=-1 


图 像 中 两 面 块 不 相 邻 ， 而 模型 
中 二 者 共 界 : r=- 1 


A 图 像 中 两 面 块 共 界 ， 模 型 中 二 


者 也 共 界 : r 是 它们 夹 角 值 的 函 
数 





图 10-8 对 两 个 面 块 以 及 相应 两 个 模型 之 间 进 行 标号 而 定义 的 兼容 性 有 4 种 可 能 的 情况 
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ry(A, A,, B, À) = cos(0,, - 9,2) (10-5) 


其 中 9ua 表 示 面 块 A 与 B 之 间 的 夹 角 (由 于 这 是 距离 图 像 ， 因 而 其 夹 角 是 可 以 度量 的 ) 。 

这 里 要 强调 的 一 点 是 兼容 函数 的 定义 完全 取决 于 要 解决 的 问题 。 而 剩 下 的 标号 松弛 过 程 
就 可 按 式 (10-3) 5j (10-4) 定义 的 方式 进行 简单 的 迭代 。 
另 一 个 例子 : 跟踪 运动 目标 

假设 要 跟踪 的 物体 是 正在 移动 的 4 轮 汽车 ， 而 摄像 机 只 能 记录 轮胎 的 位 置 (这 是 一 个 古怪 
的 摄像 机 )。 因 此 我 们 的 目标 是 要 确定 图 像 中 的 嘟 个 轮胎 与 下 一 幅 图 中 哪个 轮胎 对 应 。 图 10-9 
表示 了 这 种 情况 ， 其 中 第 “ 帧 图 像 的 轮廓 的 位 置 用 空心 圆 表示 ， 而 第 x+1 帧 图 像 中 轮 麻 位 置 则 
用 实心 圆 表示 。 在 这 个 应 用 中 ， 标 号 任务 可 表示 成 : 在 n 帧 图 像 中 的 物体 (轮子 ) Bint ih 
图 像 中 的 标号 (也 是 轮子 ) 来 赋值 。 那 么 要 用 怎样 的 兼容 函数 呢 ? 为 了 找到 答案 ， 让 我 们 设 
想 某 些 不 正确 的 标号 赋值 。 例 如 : 图 10-10 用 箭头 表示 从 物体 到 标号 的 关系 。 你 认为 这 种 标号 
关系 是 正常 的 吗 ? 


图 10-9 第 1 帧 的 物体 用 空心 圆 表示 ， 而 第 2 帧 的 物体 。 ”图 10-10 一 种 可 能 是 不 正确 的 标号 赋值 关系 
用 实心 加 表示 ， 要 解决 的 问题 是 要 找到 空心 
加 与 实心 圆 之 间 最 一 致 的 标号 赋值 


” 如果 图 10-10 所 示 情 况 是 正确 的 ， 那 么 前 左轮 胎 就 会 转换 成 前 右 轮胎 ， 后 面 轮 胎 也 有 类 似 
情况 。 只 有 出 现 汽车 翻车 ， 这 种 解释 才 合 理 ， 而 显然 我 们 并 不 希望 这 种 情况 发 生 。 而 图 10-11 
所 示 的 解释 则 显然 更 加 合理 ， 在 图 中 表示 标号 关系 的 箭头 是 接近 平行 的 。 这 表明 可 以 用 箭头 
之 间 角 度 的 余弦 来 定义 兼容 函数 。 


ry (i, m, j, n) = cos(8(i, m) - 0j, p)) (10-6) 
其 中 ;与 分别 是 第 4 帧 中 的 轮子 ，mm 与 p 是 第 n+1 帧 中 的 轮子 。 而 式 
(10-6) 是 度量 当 ; 与 / 花 分 别 对 应 m 与 p 时 的 兼容 性 。 尽 管 这 个 概念 已 在 本 
书 前 几 年 的 非 正式 版 本 中 已 提 到 ， 但 它 是 W,[10.19] 于 1995 年 正式 发 布 的 。 
10.3 结论 1 
m 、 、， 、 、 图 10-11 一 个 更 加 合理 的 
这 一 章 专门 讨论 一 致 性 问题 。 我 们 希望 学 生 们 能 接受 这 样 一 个 观 eee 
点 : 对 来 自 不 同 信息 源 的 信息 进行 融合 的 最 好 方法 是 搜索 符合 一 致 性 
的 标号 赋值 


求 最 优 解 的 方法 将 在 下 一 节 中 正式 使 用 ， 下 一 节 建 立 一 个 优化 问题 ， 然 后 使 用 共 轿 梯度 
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WRAL RRA. JESUBE HE HORS FEAS SEDE YE. VERE RT AUC GREECE. 
这 种 技术 在 许多 方面 与 梯度 下 降 法 相似 ， 但 是 运算 快 得 多 。 

学 者 们 正在 继续 从 事 改 进 一 致 性 标号 概念 的 工作 ， 基 中 包括 松弛 标号 [10.4]。 松 弛 法 或 相 
似 的 算法 已 在 许多 不 同 的 应 用 中 使 用 ， 诸 如 字符 识别 [10.121]， 边 缘 提 取 [10.15]。 其 基本 理论 
可 阅读 [10.9，10.16]。 


10.4 术语 
兼容 性 compatibility 
FARA concave edge 
一 致 的 consistent 
山 起 的 边 convex edge 
标号 labeling 
线性 松弛 法 linear relaxation 


局 部 /全 局 推理 local/global inference 
非 线 性 松弛 法 nonlinear relaxation 


被 遮挡 的 occluded 
松弛 标号 relaxation labeling 
作业 10.1 


在 本 章 中 ， 你 们 已 经 看 到 设计 兼容 性 函数 的 两 个 例子 ， 下 面 有 机 会 自行 设计 兼容 性 函数 。 
要 讨论 的 问题 是 : 你 已 用 一 种 边缘 检测 器 在 图 像 中 检测 出 边缘 ， 对 图 像 中 的 每 个 像素 ， 进 行 
了 梯度 计算 ， 得 到 了 它 的 幅度 以 及 梯度 方向 。 边 缘 检 测 中 必然 有 部 分 被 噪声 污染 ， 以 及 模糊 
化 了 的 ， 试 用 松弛 标号 方法 来 确定 “真实 ”的 边缘 像素 。 

tem: 一 个 “真实 ”的 边缘 像素 的 梯度 向 量 应 该 与 相 邻 的 边缘 像素 具有 相同 的 方向 ， 采 
用 这 种 概念 设计 一 个 兼容 性 函数 。 描 写 一 下 如 何 使 用 这 个 概念 ， 可 以 使 用 伪 码 ， 或 文字 ,或 
流程 图 ， 或 三 者 都 用 ， 不 用 编写 实际 的 软件 。 


专题 10A 二 维 线条 图 的 三 维 解释 


从 上 述 讨论 中 可 以 看 出 线条 图 的 解释 是 一 个 难题 。 单 个 线条 图 只 表示 了 一 个 三 维 物体 的 
某 一 种 视图 ， 因 而 是 带 歧义 性 的 。 这 种 歧义 性 可 以 通过 使 用 一 组 存储 起 来 的 模型 来 解决 。 这 
种 方法 需要 对 图 像 中 可 能 出 现 的 物体 有 先 验 知识 ， 而 对 没有 存储 模型 的 新 物体 就 很 难 给 出 比 
较 合 理 的 解释 。 

Marill[10.11] 提 出 一 种 解释 线条 图 的 另 一 种 方法 ， 它 不 需要 模型 ， 他 在 对 二 维 线条 图 作 三 
维 解释 时 只 使 用 启发 式 规则 。 使 用 这 种 规则 可 以 认为 ， 如 果 在 某 种 三 维 解释 中 ，-- 些 线条 之 
间 的 推算 角度 明显 大 于 其 他 线条 之 间 推 算 的 角度 


Ay Jo Za) 
时 ， 这 种 解释 的 正确 性 较 差 。 换 一 种 更 明确 的 说 ^ 
法 是 ， 在 所 有 与 二 维 线条 图 具有 一 致 性 的 三 维 模 ”Bow 和 az) < 
型 中 ， 优 先 考虑 的 解释 是 角度 值 的 标准 差 (SDA) : "M 


为 最 小 的 那 一 个 ， 标 准 差 在 式 (10-7) 中 定义 ， | 
其 中 6 角 在 图 10-12 中 说 明 。 图 10-12 线 与 角度 








t3 
3 
tà 





212 #10 # 


(10-7) 





10-13 7r: 二 维 线条 图 ， 右 : 使 用 仿真 法 做 出 的 三 维 解释 


这 个 算法 可 以 对 相当 多 种 类 不 同 的 线条 图 做 出 解释 ， 并 且 尽 管 没 有 明显 的 模型 ， 但 看 起 
来 经 常 与 人 们 做 出 的 解释 相 一 致 。 

为 了 使 问题 简化 ， 将 目标 函数 SDA 求 平方 ， 并 简称 为 9。 我 们 要 为 二 维 图 像 中 的 找到 第 三 
个 坐标 值 《2:) ， 使 得 目标 函数 8 达 最 小 值 


2 


s-xye-[yo] | | (10-8) 


5 对 z 的 偏 导数 如 式 (10-9) 所 示 
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98 - 36). 30 10-9 
02, 7 y [o 5.) 20 02, l ) 
其 中 由 两 个 向 量 v 与 vy, 可 以 用 下 式 计算 


\ 
8- cost HS 
lal) (10-10) 
= cos”! (Xo = Xp MX = x4) + Oa ~ Yo Ve Yp) + Za LX = 2p) 
JG, 7 x) *Q, - X *G, — zY JG -x,Y tO - y, *(z, - BY 


KE RREZ APE EI 10-13, CECE FH HUBS RE HR EU 

对 Marill 提 出 的 算法 ，Wang[10.18] 在 几 个 方面 做 了 改进 ， 其 中 大 部 分 的 计算 复杂 度 都 不 
大 ， 包 括 采 用 线段 幅 值 的 标准 差 (DSM) 作为 目标 函数 [10.3]， 以 及 采用 梯度 下 降 法 来 求解 最 
小 化 问题 [10.2]。 
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第 11 章 参数 变换 


Suppose I was on the other side of the glass, wouldn't the orange still be in my right hand? 
Lewis Carroll 
本 章 讨论 参数 变换 ， 它 是 对 局 部 到 全 局 推理 问题 的 另 一 种 求解 方法 。 在 这 种 方法 中 假设 
从 图 像 中 搜索 的 物体 可 以 用 一 种 数学 表达 式 描述 ， 从 而 可 用 一 组 参数 表示 。 例 如 一 条 直线 可 
以 表示 成 以 下 斜率 -~ 截 距 形式 : 
y=ax+b (11-1) 
其 中 4 与 6 是 描述 该 条 线 的 参数 。 这 种 方法 可 描述 如 下 : 给 定 一 组 点 (或 其 他 特征 )， 它 们 全 都 
服从 相同 的 方程 式 ， 要 求 找到 这 个 方程 式 的 参数 。 从 某 种 意义 上 讲 ， 这 与 一 组 点 拟 合 一 条 曲 
线 的 问题 相同 ， 但 随 着 讨论 进行 下 去 ， 你 会 发 现 这 种 参数 变换 方法 能 发 现 多 条 曲线 ， 而 不 需 
要 先 验 地 知道 哪个 点 属于 哪 条 曲线 。 本 章 讨论 从 检测 直线 这 一 特定 情况 开始 。 


11.1 Hough 变 换 


假设 要 解决 的 问题 是 在 如 图 11-1 所 示 的 图 像 中 检测 直线 。 如 果 图 像 中 只 有 一 条 直线 ， 则 
可 用 直线 拟 合 来 确定 曲线 (此 时 为 直线 一 一 译 者 注 ) 的 
参数 。 但 该 图 像 中 有 两 条 直线 段 。 如 果 我 们 能 够 先 对 其 
进行 划分 ， 然 后 就 可 对 每 一 段 分 别 进行 拟 合 。 这 的 确 可 
看 成 一 个 分 割 问题 ， 但 是 这 是 一 个 将 边界 划分 成 边界 段 
的 问题 ， 而 不 是 将 图 像 划 分 区 域 的 问题 。 在 本 章 要 学 习 
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M PN M 图 11-1 一 幅 从 边缘 检测 器 输出 的 图 像 ， 
首先 先 证 明 一 个 带 原 理性 的 定理 。 人 们 立即 能 察觉 到 这 段 边 绿 曲线 
定义 大 致 是 由 两 条 线 直线 段 组 成 的 


在 d 维 空间 给 定 一 个 点 ， 以 及 在 该 空间 定义 一 条 曲 
线 的 参数 表示 式 ， 则 这 个 点 的 参数 变换 是 一 条 曲线 ， 它 把 这 个 点 作为 一 个 常数 ， 而 参数 则 是 
相应 的 变量 。 例 如 ， 从 式 (11-1) 得 到 一 个 参数 变换 
b=y — xa (11-2) 
它 本 身 就 是 在 二 维 空间 (a, 2 》 中 的 一 条 直线 。 如 果 该 点 为 x-3，y=5， 则 相应 的 参数 变换 为 
b=5 — 3a. 
定理 
如 果 有 几 个 点 在 二 维 空间 中 共 线 ， 则 对 应 每 个 点 的 参数 变换 如 采用 b=y - xa 形式， 会 相交 
T (a,b) 空间 的 同一 点 。 
iE: 
BENT FAL, YD. A Y), 7. An Vo) } 都 满足 以 下 同一 个 方程 式 
. y=aox+bo (11-3) 


N 
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考虑 其 中 的 两 个 点 (xy) 与 (Gg y; ) ,它们 的 参数 变换 是 曲线 (在 此 是 直线 ) 


= xatb (11-4) 
yj =x,at+b 
将 其 写成 以 a 与 5 作为 独立 变量 的 形式 
| bra (11-5) 
b=y,-x,a 
这 两 条 曲线 在 a, 5 的 交点 如 图 11-2 所 示 。 b 
对 式 (11-5) 的 两 个 方程 求 联 立 解 得 到 
yj-y;7(xj-x)a : (11-6) 
_ MIHI a 
因而 得 到 a = 图 11-2 参数 空间 中 的 两 条 线 的 交点 
将 a 代 信 式 (11-5) 中 得 到 b 
b - y, - x, MEM Ji . (11-7) 
Xj -X 


于 是 得 到 两 条 曲线 相交 处 的 a 与 bp 的 值 。 但 是 从 式 (11-3) 中 可 知 ， 所 有 点 的 (x, y) 值 都 满足 
同一 条 曲线 。 将 其 代入 式 (11-7), RAB 


b= = (ax, +b,)- x, C t Po) = (doi + bo) (11-8) 
Xj 
简化 后 可 得 
b = (agx; + by) - xa = by : (11-9) 
同样 有 


a LY _ oj a (Gy, +o) NN . (11-10) 


于 是 对 用 参数 a0 与 bo 表示 的 直线 上 的 任 两 点 ， 它 们 的 参数 变换 交 于 a= atb by. 因为 任何 两 
点 的 变换 都 交 在 这 一 点 ， 所 有 点 的 变换 都 交 于 一 个 公共 点 。 证 毕 。 
重新 回顾 一 下 这 里 的 一 个 概念 : 图 像 中 的 一 个 点 在 参数 空间 中 产生 一 条 曲线 (可 能 是 直线 )。 
如 果 图 像 中 的 一 些 点 都 在 一 条 直线 上 ， 则 在 参数 空间 中 相应 的 曲线 会 交汇 在 一 个 公共 点 上 。 
懂得 这 一 点 了 吗 ? 那么 进入 下 一 问题 的 讨论 。 


11.1.1 垂直 线 带 来 的 问题 


将 上 述 方法 用 到 垂直 线 会 怎么 ? TE! 参数 a 会 变 成 无 穷 大 。 这 样 可 不 好 ，- 看 来 需要 另 一 种 
直线 方程 式 ， 它 如 下 式 表示 
p=xcos6é+ ysin (11-11) 
选择 0 与 6 的 一 组 值 ， 并 将 其 固定 ， 那 么 满足 式 〈11-11) 的 一 组 点 就 是 一 条 直线 ， 这 种 方 
程式 的 几何 解释 如 图 11-3 所 示 。 
用 这 种 方式 表示 直线 有 许多 好 处 ， 与 使 用 斜率 不 同 ，p 与 6 参数 值 都 是 有 界 的 。p 的 值 必然 
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不 会 大 于 图 像 的 最 大 对 角 线 长 度 ， 而 6 则 不 会 超过 2r。 任 何 一 个 角度 的 直线 不 会 有 奇异 性 。 
使 用 这 种 参数 表达 式 解 决 了 可 能 出 现 无 穷 大 和 斜率 的 问题 。 另 一 个 问题 是 计算 交点 的 问题 。 


11.1.2 ”如何 找到 交点 一 一 累加 器 数组 


采用 找到 所 有 曲线 的 所 有 交点 ， 然 后 确定 其 中 哪些 是 相互 接近 的 方法 是 不 现实 的 ， 我 们 
采用 累加 器 数组 的 概念 。 为 了 构造 一 个 累加 器 数组 ， 我 们 构造 一 幅 图 像 ， 并 设 其 有 360 列 与 
512 行 。 该 幅 图 像 的 每 个 像素 值 都 初始 化 为 零 。 这 幅 特 殊 图 像 的 每 一 个 像素 就 作为 累加 器 。 图 
11-4 表 示 在 一 个 很 小 的 累加 器 数组 中 画 出 三 条 直线 的 情况 ， 它 是 使 用 下 述 算法 生成 的 : 

对 边缘 图 像 的 每 个 点 x; 与 : 

1) 对 9 的 所 有 值 计算 p 值 。 

2) 根据 (p, 9) 的 计算 值 在 累加 器 数组 内 相应 的 点 (p, 9) 上 的 值 加 1。 














y 
年 直方 向 
p 
0 " 

LI LIMBL TII 

x LI] MI TT 
图 11-3 一 条 直线 的 p 和 6 表达 式 中 ，p 是 直线 到 图 11-4 三 条 线 用 累加 器 数组 标 出 来 ， 三 条 线 
坐标 系 原 点 的 垂直 距离 ， 而 6 是 直线 梯度 本 身 也 画 在 其 中 ， 每 当 一 条 线 穿 过 某 

方向 与 x 轴 之 间 的 夹 角 累加 器 ， 该 累加 器 中 的 值 加 1 


这 个 算法 使 得 对 应 于 交点 的 累加 器 多 重 增 值 。 于 是 累加 器 数组 中 的 峰值 对 应 于 多 重 交 点 ， 
从 而 获得 了 相应 的 参数 选择 。 

图 11-5 显 示 了 一 幅 有 两 条 直线 的 图 像 ， 以 及 相应 的 Hough 变 换 ， 其 中 每 个 像素 的 亮度 是 累 
加 器 中 的 值 。 





图 11-5 a) 一 幅 有 两 条 直线 段 的 图 像 ， 其 中 的 两 条 直线 的 斜率 与 截 距 是 明显 不 同 的 ， 但 线 上 的 
点 的 位 置 被 很 强 的 噪声 所 扰动 。b) 相应 的 Hough 变 换 








N 
Ks] 
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1.2 减少 计算 复杂 度 


参数 变换 的 计算 复杂 度 会 相当 高 ，Hough 变 换 也 因此 被 喻 为 “咖啡 变换 ”， 因 为 你 可 以 命 
令 计算 机 执行 Hough 变 换 ， 并 在 它 完 成 之 前 喝 下 一 整 杯 的 咖啡 。 例 如 要 计算 Hough 变 换 的 一 幅 
图 像 尺寸 为 S12 x 512， 并 且 希 望 角度 分 辨 率 为 1 度 。 因 此 累加 器 数组 的 尺寸 
为 (512x2V2)x360， 每 次 选 代 要 对 每 个 9 值 计算 P 信 ， 于 是 对 图 像 中 的 每 个 边缘 点 要 计算 与 给 
360 个 累加 器 增值 。 


使 用 梯度 信息 


如 果 注 意 到 图 像 中 的 边缘 点 通常 是 某 些 梯度 算 子 的 输出 ， 因 此 如 果 知 道 梯度 的 幅 值 与 方 
向 ， 则 可 以 利用 这 些 信息 来 降低 计算 的 复杂 度 ， 这 是 降低 计算 复杂 度 的 一 种 方法 。 为 了 说 明 
这 一 点 ， 请 看 图 11-3， 如 果 我 们 知道 一 个 点 的 梯度 ， 我 们 就 知道 了 边缘 的 方向 ， 也 就 知道 了 6 
值 。 于 是 只 需要 计算 p 值 一 次 ， 而 不 是 360 次 ， 并 且 只 需 对 一 个 累加 器 增值 ， 一 个 360 : 1 的 加 
XR. Ae! 

当然 ， 这 种 方法 也 有 实际 问题 。 首 先 大 多 数 梯度 运算 检测 出 的 梯度 方向 不 是 很 准确 ， 因 
此 要 增值 的 累加 器 单元 的 位 置 不 十 分 准确 。 对 此 有 一 种 简单 的 解决 办 法 。 做 法 是 不 仅仅 在 一 
个 点 (一 个 单元 ) 增值 ， 而 是 在 一 个 邻 域 的 单元 都 增值 。 例 如 可 以 对 所 计算 出 的 单元 增值 2， 
而 对 该 单元 的 邻 域 单元 增值 1， 类 似 于 高 斯 函数 。 

累加 器 单元 的 增值 过 程 中 也 可 以 使 用 梯度 的 幅 值 。 在 前 面 提 到 的 方法 中 曾 建议 对 梯度 图 像 
先进 行 阐 值 化 ， 并 在 图 像 的 边缘 点 对 应 的 累加 器 中 增加 1。 另 一 种 方法 是 用 梯度 的 幅 值 进行 增 
fa, 或 用 与 幅 什 成 正比 的 值 增 值 。 这 需要 使 用 浮 点 表示 式 的 累加 器 数组 ， 但 这 并 不 成 为 问题 。 

总 之 ， 可 以 调整 在 图 像 空间 的 计算 量 (计算 梯度 的 幅 值 与 方向 ) 与 参数 空间 的 计算 量 ， 
以 求 计算 明显 加 速 。 在 本 章 后 续 讨论 中 还 会 看 到 这 种 方法 。 其 他 种 启发 式 措施 [11.13] 也 能 产 
生 加 速效 果 。 


11.3 检测 贺 


可 以 将 Hough 变 换 推广 到 包含 圆 弧 线段 的 检测 。 RARER RR HT 这 
种 技术 比较 实用 。 —— Š 


11.3.1. 用 非 共 线 三 个 像素 表示 一 个 加 的 定位 


设 一 幅 图 像 的 后 选 边 缘 像素 的 亮度 值 存在 数组 中 ， 整 数 表示 在 第 / 行 ， < 列 的 边缘 像素 
的 幅 值 。 给 定 7 中 三 个 非 共 线 的 点 ， 本 节 将 讨论 如 何 确 定 过 该 三 AL 与 半径 的 原理 ， 
而 在 11.3.2 节 中 将 其 集成 为 一 个 参数 变换 ， 用 来 检测 图 弧 线段 。， 


假设 任何 两 根 弦 的 乔 直 平分 线 , 扩 疼 11-6 电 的 B01 s Bor B12 
与 B12) ， 相 交 于 某 个 有 限 远 点 G: 福 容 易 证 明 C 就 是 Or p 
包含 P0、P1 与 P2 三 点 的 贺 的 辆 心 。 如 令 LOC 是 po 到 C — 72 5 " 
的 线段 ，L1C 是 P1 到 C 的 线段 ， 以 及 [2C 是 P2 到 C 的 线 。 up 
段 。 由 于 C 处 在 垂直 平分 线 上 ，P0、P1 与 P2 对 C 点 等 07 C 


忠 。 因 此 LOC 的 长 度 R 等 于 L2C 的 长 度 。 这 三 个 点 对 同 。 图 11-6 包含 P0、 P1 与 P2 三 点 的 圆 的 半径 
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一 点 C 等 距离 ， 从 而 满足 以 C 为 圆心 ， 半 径 为 R 的 圆 的 定义 。 

如 果 B01 与 B02 相互 平行 ， 此 时 它们 将 不 会 交 在 有 限 远 点 ， 则 线 L01 与 L12 有 相同 的 斜率 ， 
P0、P1 与 P2 也 因而 共 线 。 然 而 任何 三 个 非 共 线 的 点 都 可 以 处 在 同一 圆 上 ， 如 上 所 述 它 的 圆心 
可 通过 这 些 点 的 连 线 的 垂直 平分 线 的 交点 确定 ， 而 半径 可 用 圆心 到 三 点 中 任 一 点 的 距离 计算 。 
包含 PO、P1 与 P2 的 圆 可 用 下 式 定 义 在 XY 平面 

(x-hy +(y-k)? =R? (11-12) 
其 中 C= (h,k) BAMA, FEAR. 
那么 在 上 述 讨论 基础 上 如 何 用 参数 变换 技术 来 找到 有 关 圆 的 相应 参数 呢 ? 


11.3.2 用 参数 变换 检测 圆 


A (11-12) 表明 了 一 个 圆 的 方程 式 ， 其 中 x 和 ?是 变量 ， 对 应 圆周 上 每 一 点 的 坐标 ， 而 产 、 
与 R 则 是 常数 。 与 上 一 节 求 直线 时 的 方法 相似 ， 可 以 把 该 式 写成 另 一 种 形式 ， 并 交换 参数 与 
变量 在 式 中 所 扮演 的 角色 

(h-xY +(k-y) =R (11-13) 


在 (h,k) 空间 中 ， 该 式 描 述 怎 样 的 几何 形状 呢 ? 可 以 猜测 它 是 一 个 贺 。 如 果 R 已 知 ， 则 
图 像 空间 中 每 个 点 (x, y). 在 参数 空间 中 就 会 产生 一 条 曲线 ， 如 果 所 有 这 些 点 在 图 像 空间 中 
属于 同一 个 圆 ， 那 么 参数 空间 的 这 些 曲线 将 会 交 在 何 处 呢 ? 读者 至 今 应 该 能 回答 这 个 问题 。 

如 果 R 也 未 知 呢 ? 问题 是 同样 性 质 的 ， 但 是 此 时 不 能 只 改变 让 AP 在 量 值 范围 内 变化 来 计算 上 
值 ， 而 应 该 让 /与 5 两 个 量 都 在 其 量 值 范围 内 变化 ， 并 计算 R 的 值 ， 此 时 的 参数 空间 就 变 成 三 维 
的 。 允 许 两 个 变量 变化 计算 第 三 个 ， 定 义 了 三 维 空间 的 一 个 表面 。 这 种 表面 是 什么 类 型 的 呢 
(HA. Oh ese. HE. Hi. CET) ? 


11.3.3 检测 圆 中 利用 梯度 信息 降低 计算 量 


假设 我 们 知道 图 像 中 只 有 一 个 圆 ， 或 一 个 圆 的 一 部 分 ， 那 么 怎样 才能 用 最 小 的 计算 复杂 
度 检测 圆心 呢 ? XX HU RESET: 在 每 个 边缘 点 计算 梯度 向 量 。 累 加 器 与 该 图 像 是 同 术 的 
( 即 图 像 的 每 个 像素 位 置 对 应 一 个 累加 器 一 一 译 者 
注 )。 对 每 个 边缘 点 ， 沿 着 它 的 梯度 向 量 移动 ， 
对 处 在 行进 中 路 过 的 每 一 累加 器 位 置 (也 就 是 对 
应 位 置 的 图 像 像 素 处 ) 增值 。 与 前 述 情 况 相 同 ， 
累加 器 值 达到 最 大 的 累加 器 位 置 ， 就 是 该 圆 的 贺 
心 。 图 11-7 显 示 了 这 种 情况 。 

那么 如 果 圆 的 半径 已 知 又 会 怎样 呢 ? 如果 能 ”图 11-7 名 个 梯度 向 量 的 延 线 趋向 于 交 于 同一 点 
从 梯度 向 量 得 到 方向 信息 ， 又 从 已 知 半径 得 到 距 
离 信 息 ， 那 么 就 能 知道 圆心 的 位 置 (至 多 只 有 一 个 处 在 那 一 边 的 歧义 性 )。 说 得 更 清楚 一 些 ， 
如 果 假 设 在 (x;, y) 处 的 点 是 半径 为 R 的 圆 上 一 点 ， 并 且 该 点 梯度 的 幅度 为 M， 方 向 为 6， 就 
如 图 11-8 所 示 ， 那 么 圆心 的 位 置 应 为 


Xy = x, - RcosB 





11-14 
yo = y; - Rsin8 ( ) 
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如 前 所 述 ， 累 加 器 数组 增值 的 方法 应 该 是 一 个 累加 器 及 其 邻 域 ， 而 不 仅仅 是 该 累加 器 。 
并 且 累 加 器 所 增 之 值 与 M 成 正比 是 有 好 处 的 。 


11.4 广义 Hough 变 换 


迄今 为 止 讨论 的 情况 都 假设 为 ， 要 检测 的 形状 
能 够 用 一 个 解析 函数 及 一 组 参数 来 表示 。 其 实 这 种 
由 数据 项 进行 “投票 ”确定 形状 的 概念 ， 可 以 推广 图 11-8 假设 点 Gov) 在 半径 为 R 的 圆周 上 ， 梯 度 沿 





到 更 广义 的 形态 中 去 。 首 先 不 妨 假设 有 一 个 任意 形 箭头 所 指 方向 。 如 果 已 知 圆 比 背景 要 暗 ， 则 可 
状 的 区 域 ， 其 朝向 、 形 状 与 放 缩 比例 已 知 。 那 么 首 沿 梯度 向 量 相反 方向 长 度 为 R 处 找到 圆心 。 如 
要 的 问题 是 要 找到 一 种 表示 方法 ， 使 得 用 类 化 Hough 果 对 比 度 与 上 述 情 况 相 反 ， 则 要 沿 梯度 方向 的 
变换 的 方法 检测 出 该 区 域 。 下 面 是 方法 之 一 [11.2]。 正方 向 找 圆 心 。 如 果 圆 与 背景 的 亮 暗 对 比 关系 
首先 ， 对 该 形状 区 域 定义 一 个 参考 点 。 选 择 未 知 ， 则 在 两 个 方向 上 的 累加 器 位 置 增值 


参考 点 的 方法 可 以 是 任意 的 ， 但 一 般 用 重心 比较 
方便 。 称 该 参考 点 为 O。 对 该 形体 的 任 一 轮廓 边缘 


ARP, 计算 其 梯度 向 量 ， 以 及 该 点 到 0 的 向 量 Op 。 p 
将 梯度 方向 的 分 布 范围 量化 成 几 个 值 ， 并 建立 一 

个 有 n 行 的 表 。 对 该 区 域 边缘 点 P 计 算 梯度 方向 ， D 
如 其 值 为 G; (二 1,…,n)， 则 在 第 : 行 上 增加 一 个 新 的 P, 


列 , HOP 填 人 。 于 是 在 轮廓 上 尽管 可 能 有 多 个 点 | 
具有 相同 的 梯度 方向 ,但 它们 (由 于 Ob 不 同 ) p BINS HUP, IP, HRA AA 


然 记录 在 表 中 同一 行 中 的 不 同 列 中 。 图 11-9 表 示 了 由， 在 R 表 中 ， 它 们 列 在 同一 行内 天 
一 个 形状 ， 而 其 中 三 个 轮廓 点 的 有 关 数据 在 R 表 中 的 的 数据 显示 在 R 表 中 的 第 一 行 
记录 展示 在 表 11-1 中 。 


表 11-1 包含 图 11-9 中 三 个 轮廓 点 数据 的 R 表 


轮廓 点 到 参考 点 的 向 量 





300 - 0.6, 1.1 空 


为 了 使 用 这 样 一 种 形状 表示 方法 实现 形状 区 域 的 匹配 与 定位 ， 可 以 使 用 以 下 算法 : 
1) 生成 一 个 累加 器 数组 ， 用 来 存储 参考 点 的 后 选 位 置 ， 置 该 数组 初始 值 为 零 。 
2) 对 每 个 边缘 点 P; 做 : 

2.1) 计算 梯度 方向 ， 并 在 R 表 中 找到 相应 行 。 

2.2) 对 该 行 的 每 个 项 让 

. 将 在 R 表 中 所 存储 的 轮廓 点 位 置 向 量 7[i, 7] S P, 相 加 ， 求 得 形状 参考 点 后 选 位 
置 : A-TI, j]+P,。 

282 b) 对 由 4 确定 的 累加 器 增值 。 


11.5 结论 
在 本 章 中 以 Hough 变 换 及 其 推广 形式 的 方法 为 例 ， 介 绍 了 另 一 种 分 析 -- 致 性 的 方法 ， 它 们 
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都 用 累加 器 数组 。 用 累加 器 数组 的 方法 检测 一 致 性 很 方便 ， 因 为 体现 出 一 致 性 的 “事件 ”都 
会 在 同一 累加 器 单位 中 增值 ， 或 至 少 可 在 相近 的 累加 器 单元 中 增值 。 通 过 使 用 累加 器 数组 累 
it (对 被 检测 对 象 ) 候选 假设 来 检测 形状 的 方法 ， 还 可 以 提高 抵抗 度量 中 噪声 干扰 的 能 力 ， 
因为 不 一 致 的 解 一 般 不 会 在 全 局 性 (一致 的 ) 解 的 累加 器 单元 中 增值 ， 而 由 噪声 产生 的 假设 
往往 会 分 散在 不 同 的 累加 器 中 。 


11.6 术语 
累加 器 数组 accumulator array 
广义 Hough 变 换 generalized Hough transform 
Hough 变 换 Hough transform 
参数 变换 parametric transform 





专题 11A 参数 变 
11A.1 检测 抛物 线 


下 面 介 绍 Wechsler 与 Sklansky[11.12] 研 究 出 的 ， 在 图 像 中 检测 抛物 线 问题 的 一 种 方法 。 
抛物 线 是 由 一 些 点 组 成 的 轨迹 ， 这 些 点 到 某 一 定点 ( 称 为 焦点 ) 的 距离 等 于 它们 到 某 一 
特定 线 ( 称 为 准 线 ) 的 距离 ， 如 图 11-10 所 示 。 


x! »(x-2ay «y? (11-15) 
或 
y? = 4a(x - a) (11-16) 
准 线 
"uc 











pata et 
pd — wi 





图 11-10 一 条 抛物 线 283 
对 式 (11-16) 求 对 x 的 导数 : 
Stani- lo. 
B=tanA di — (11-17) 
并 求 出 其 中 的 a 
a (11-18) 


在 图 11-10 中 使 用 直角 三 角形 PAF 来 确定 
tan = -tan(x -0) (11-19) 
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5 
tano- = 4a(x — a) 
x-2a x-2a 
用 式 (11-17) 计算 的 a 代入 得 
tan@ = 2 A =tan2A 
À 
而 式 (11-21) 的 解 是 
0 -2A 


再 回 到 图 11-10 中 得 到 
Ax=d cos(x — 0)-d cos 0 
以 及 
Ay= ~ d sin(x — 0)= -d sin @ 
Xp X, Ax 
Yr=Ypt Ay 
Xr 与 yr TARER MERASA. 
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(11-20) 


(11-21) 


(11-22) 
(11-23) 
(11-24) 


(11-25) 
(11-26) 


MA (11-17) Bl (11-26) 的 推导 提供 了 使 用 累加 器 数组 检测 抛物 线 的 方法 。 然 而 这 种 方 


法 是 很 受 限制 的 ， 其 中 包含 了 以 下 假设 : 
。 在 视 场 中 只 有 一 条 抛物 线 。 
* 抛物 线 对 称 于 一 条 水 平 线 。 


X (11-16) 假设 焦点 在 x= a 处 ， 上 述 方法 只 在 视 场 中 只 有 一 条 抛物 线 ， 以 及 坐标 原点 位 


置 随意 的 情况 下 适用 。 然 而 在 更 加 一 般 性 的 情况 中 应 该 关注 原点 的 位 置 问题 。 
为 了 克服 上 述 困难 ，Wechsler 与 Sklansky[11.12] 推 导 了 下 述 方法 。 


首先 ， 继 续 认为 抛物 线 对 称 于 一 条 水 平 线 ， 但 原点 则 是 某 个 任意 点 (xo, yo) ， 此 时 抛物 线 


方程 变 成 (参阅 图 11-11)。 











图 11-11 任意 点 的 抛物 线 


(y — Yo) =4a(x 一 Xo) 


与 式 (11-17) 一 样 对 其 求 导 得 到 
oy 
dr X — Xo 





B=tandA= 


(11-27) 


(11-28) 
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和 a= B'(x - x) (11-29) 
将 式 (11-29) 代入 式 (11-27) 
O- yY 2 AB (x- x,» (11-30) 
对 两 边 求 平 方 根 得 到 
O- yo) = 2B(x - x) (11-31) 


X (11-31) 描述 了 (x。，yo) 参 数 空间 中 一 条 直线 。 于 是 通过 局 部 求 导 ， 式 (11-27) 中 的 三 参 
数 问题 降 至 更 容易 操作 的 二 维 问题 。 
显然 除了 圆 、 抛 物 线 之 外 的 其 他 形状 也 可 用 这 种 方法 检测 到 [11.3]。 


11A.2 检测 峰值 


使 用 这 种 方法 显然 希望 累加 器 数组 的 峰值 能 落 在 真实 的 参数 值 处 或 其 附近 ， 但 一 般 往 往 由 
于 原始 数据 中 的 噪声 而 发 生 偏离 。 解 决 这 个 问题 有 几 种 不 同 的 方法 ， 包 括 一 些 复杂 的 方法 [11.4， 
11.1 与 一 些 简 单 的 方法 。 一 般 说 来 这 是 一 个 聚 类 问题 [11.4] ， 所 以 能 对 数据 进行 聚 类 的 方法 ， 对 
峰值 检测 也 适用 。 一 些 简 单 的 技术 经 验 能 解决 问题 ， 例 如 可 以 用 在 15.2.2 节 中 描述 的 k 均 值 方法 。 

聚 类 是 在 数据 中 检测 内 含 类 别 的 过 程 。 在 本 章 中 的 应 用 是 找到 累加 器 峰值 的 最 佳 估计 ， 
然而 聚 类 不 仅仅 只 限于 检测 分 布 的 模式 ， 它 有 更 广泛 的 应 用 。 例 如 McLean 与 Kotturi[11.9] 使 
用 诊 类 技术 在 图 像 中 检测 消 隐 点 [11.5]。 育 类 将 在 第 15 章 中 详细 讨论 。 


11A.3 高 斯 图 


“高 斯 图 ”( Gauss Map) 映射 为 表示 距离 图 像 的 运算 提供 了 有 效 的 途径 。 它 在 原理 上 是 一 
种 参数 变换 ， 其 概念 是 十 分 简单 的 ， 首 先 将 一 个 球 的 表面 分 割 成 由 许多 面 片 镶 伐 而 成 的 形式 ， 
面 片 尺寸 可 根据 需要 选择 ， 而 它 就 决定 了 这 种 图 的 分 辩 率 ， 每 个 面 片 附 有 一 个 计数 器 (累加 
器 )。 对 距离 图 像 ， 在 其 每 个 像素 计算 表面 的 法 线 ， 并 且 为 具有 相同 表面 法 线 的 高 斯 图 单元 增 
值 ， 这 实质 上 是 法 线 向 量 的 直方 图 ， 而 它 可 以 用 来 对 距离 图 像 中 物体 的 方向 进行 识别 。 

由 于 曲率 表示 法 线 方向 改变 的 速率 ， 高 斯 图 可 以 与 曲率 联系 起 来 。 高 斯 图 的 可 逆 性 以 及 
在 旋转 与 移 位 条 件 下 的 不 变性 ， 在 [11.7] 中 有 更 详细 的 讨论 。 这 种 图 也 可 用 到 对 图 像 中 鉴别 消 
隐 点 [11.8]。 


11A.4 立体 视觉 中 的 参数 一 致 性 


在 4.2.2 节 中 曾 提 到 对 应 问题 使 得 立体 视觉 难以 提供 有 关 世 界 的 三 维 信息 。 本 节 再 深入 地 
分 析 一 下 这 个 问题 ， 并 基于 累加 器 数组 原理 提供 一 个 部 分 解决 该 问题 的 方法 。 
下 面 考虑 一 个 双 摄像 机 立体 视觉 问题 。 回 顾 图 4-9 可 以 知道 视差 是 两 个 对 应 像素 之 间 的 像 
素 距离 ，z 是 到 对 应 这 两 个 像素 的 景物 点 的 距离 ， 而 8 是 基线 (两 个 摄像 机 之 间 的 距离 )。 
d- BF (11-32) 
Z 


其 中 7 是 两 个 摄像 机 中 任何 一 个 的 焦距 (假设 两 者 的 焦距 相等 )。 当 然 困 难 的 问题 是 确定 
(在 两 幅 图 像 中 ) 哪 两 个 点 对 应 三 维 空间 中 的 同一 点 。 设 想 在 最 左边 的 图 像 中 抽取 出 一 个 小 的 
窗口 ， 并 用 平方 差 之 和 (SSD) 沿 一 水 平 线 在 另 一 幅 图 像 中 的 小 窗口 内 进行 模板 匹配 。 我 们 
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可 以 用 视差 或 距离 倒数 来 构筑 目标 函数 。 可 以 发 现 使 用 距离 倒数 是 更 方便 的 ， 并 且 发 现 典型 
的 情况 是 匹配 函数 具有 多 个 最 小 值 ， 如 图 11-12 
所 示 。 如 果 使 用 第 3 个 或 第 4 个 摄像 机 取 图 像 ， 
而 它们 到 第 1 个 摄像 机 的 基线 距离 各 不 相同 ， 也 

会 得 到 相似 的 带 巴 陷 的 曲线 。 然 而 所 有 的 曲线 在 AA 

对 应 正确 视差 的 同一 点 具有 最 小 值 。 这 就 体现 册 

一 种 一 致 性 ! 因此 可 以 定义 一 个 新 的 函数 〈 称 为 ”图 11-12 立体 视觉 对 中 第 一 幅 图 像 中 抽取 的 一 个 





以 距离 倒数 计算 的 SSD ) ， 即 从 多 重 基线 对 的 摄 模板 ， 与 第 二 幅 图 像 进行 匹配 的 结果 ， 
像 机 图 像 中 提取 这 些 曲线 并 求 和 ， 则 该 函数 对 应 是 到 达 匹 配点 距离 倒数 的 一 个 函数 


于 正确 答案 之 处 呈现 锐利 的 最 小 值 。Okutomi 与 
Kanade[11.10] 已 经 证 实 ， 这 个 函数 在 正确 匹配 的 位 置 上 呈现 明显 的 最 小 值 ， 并 且 随 着 基线 对 
数目 的 增加 ， 度 量 的 不 确定 性 随 之 下 降 。 


11A.5 结论 


参数 变换 的 基本 概念 是 搜索 一 致 性 ! 这 是 其 关键 。 在 某 种 意义 上 ， 具 有 一 致 性 的 许多 点 
会 为 累加 器 的 相同 单元 中 提供 累计 值 一 - 某 种 意义 上 称 其 为 “投票 ”(vote)。 所 期 望 的 是 ， 噪 
声 的 影响 在 投票 过 程 中 会 因 分 布 不 集中 而 排除 掉 ， 从 而 可 以 得 到 具有 一 致 性 的 解 。 

在 计算 层 析 技术 (CT) 中 ， 度 量 到 的 信号 是 沿 从 x 射线 源 发 出 到 x 射线 检测 器 的 射线 的 线 
积分 。 执 行 积分 运算 的 这 条 线 可 以 用 p 与 9 参数 表示 成 直线 

R(p,0) = f (P - (x(s)cos8 + y(s)sin8))ds (11-33) 


仔细 观察 式 (11-33) 就 可 得 出 结论 : Hough 变 换 可 以 在 形式 上 用 同位 素 变 换 (Radon 
transform) 表示 。 除 了 具体 应 用 不 同 这 一 点 外 ， 它 们 是 同样 的 变换 。 

除了 使 用 这 些 变换 来 鉴别 特定 形状 之 外 ，Leavers[11.6] 指 出 通过 观察 在 参数 空间 的 分 布 ， 
而 不 仅仅 在 参数 空间 找 峰 值 ， 还 可 以 确定 若干 区 域 的 凸 包 与 一 些 形 状 参数 。 

Aghajan 与 Kailath[11.1] 曾 提出 一 种 取代 Hough 变 换 的 有 趣 方法 一 一 使 用 波 前 传播 
(wavefront propagation)， 其 原理 是 把 每 个 像素 想像 成 无 线 电 发 射 器 ， 所 发 出 的 信号 被 位 于 每 
行 末 端的 接收 器 检测 到 ， 他 们 指出 使 用 关于 信号 处 理 到 达 方 向 的 数学 (mathematics of 
direction of arrival signal processing) 可 以 检测 直线 ， 而 计算 复杂 度 要 远 比 传统 的 Hough 变 换 
低 。 用 波 前 传播 的 概念 来 解释 人 了 脑 如 何 检测 直线 的 一 种 机 制 有 一 定 道理 。 


11A.6 术语 


高 斯 图 gauss map 

抛物 线 parabola 

同位 素 变换 radon transform 

平方 误差 的 总 和 sum of squared differences，SSD 
作业 11.1 


电路 板 “ 导 和 孔 ” 的 手册 是 一 组 从 电路 板 导 引 穿 人 的 导线 的 图 像 。 这 些 孔 大 体 上 是 圆 的 深 
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色 孔 。 试 用 参数 变换 方法 检索 这 些 孔 。 这 是 一 个 程序 作业 ， 要 求 编写 程序 加 以 实现 ， 并 处 理 
尽 可 能 多 的 图 像 。 如 果 该 方法 有 时 失效 ， 讨 论 其 原因 。 


作业 11.2 


试用 广义 Hough 变 换 来 表示 一 个 物体 与 检测 图 像 中 的 该 物体 。 该 物体 是 一 个 很 精确 的 正方 
形 ， 中 心 在 坐标 原点 ， 边 长 2 个 单元 ， 但 你 事先 并 不 知 这 些 参数 ， 你 只 得 到 5 个 点 : (0,1), 
(1,0), (1,05), (71,0) 55 (0, -1)。 画 出 R 表 并 填 上 相应 项 ， 以 备 广义 Hough 变 换 检测 该 
物体 使 用 。( 表 11-2 有 4 行 ， 这 只 是 示意 ， 你 不 一 定 都 填 满 ， 如 果 需 要 更 多 行 ， 也 可 以 添加 。) 
311-2 RË 








pl(x, y) p2 (x, y) 


T eS 














作业 11.3 

BP Hx, yj=[3, 0], Pisi y)]-2(2.39, 1.42] 是 同一 圆 盘 上 两 点 的 近似 。 我 们 事先 并 不 知 
道 圆 盘 内 部 是 暗 的 还 是 亮 的 。 忆 与 已 点 处 的 梯度 分 别 为 5 Z0 与 4543 (用 极 坐 标 表示 )。 

试用 Hough 变 换 来 估计 贺 盘 的 中 心 位 置 与 半径 ， 并 确定 圆 盘 比 背 景 暗 些 还 是 亮 些 。 
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第 12 章 图 和 图 论 概 念 


Functions are born of functions, and in turn, give birth or death to other. Forms emarge 
from forms and other arise or decend from these. 
LL Sullivan 
第 8 章 中 的 连通 子 图 已 经 涉及 到 了 图 论 中 的 术语 。 我 们 在 前 面 章节 里 用 到 “连通 子 图 ”这 
个 术语 是 将 每 个 像素 看 作 图 中 的 顶点 ， 同 时 由 每 个 顶点 引出 4 条 、6 条 或 者 8 条 边 连 接 到 其 他 顶 
点 ， 即 认为 原 图 像 中 的 像素 是 四 连通 、 六 连通 (如果 是 六 边 形 的 像素 ) 或 者 八 连通 的 。 尽 管 
引用 了 这 个 概念 ， 我 们 当时 并 没有 建立 完整 的 集合 论 或 其 他 数据 结构 。 这 将 是 本 章 的 主要 内 
容 。 本 章 讨论 的 图 匹配 技术 在 第 13 章 中 有 广泛 的 用 途 。 


12.1 图 


图 是 一 个 关系 数据 结构 。 图 由 若干 数据 元 素 组 成 ， 这 些 数据 元 素 称 为 项 点 (vertices) 或 
者 结 点 (node)， 顶 点 之 间 的 联系 称 为 边 。 

图 可 以 用 集合 来 描述 。 所 有 顶点 的 组 合 为 一 个 简单 集合 ， 所 有 边 的 组 合 为 一 个 有 序 点 对 
的 集合 。 例 如 ， 令 G= (V, E) 表示 一 个 图 ， 其 中 V={4,b,c,d,e, 内 是 顶点 集 ，E= (a). 
(b.c), (a, c), (b, e), (d, 了)} 是 边 集 。 图 也 可 以 用 示意 图 表示 。 上 面 b d 


这 个 例子 的 示意 图 表示 如 图 12-1 所 示 ， 该 图 有 两 个 连通 子 图 。 NA 
通过 这 个 例子 ， 我 们 能 够 进一步 描述 边 这 个 概念 。 图 一 般 2M 
H J, bh H u> ` gj E SAS S Jé up a € 
是 有 方向 的 也 就 是 说 边 所 描述 的 点 与 点 的 关系 是 可 以 有 方向 BILL 一 个 图 ， 包 含 6 个 顶点 、 
的 。 例 如 ， 考 虑 “above”( EF) 和 “adjacent to” (4848) 这 5 条 边 、2 个 连通 子 
、2 个 连通 子 图 
两 种 关系 ， 显 然 ，ABOVE(a, b)+ ABOVE(b, a)。 所 以 ABOVE 
关系 可 以 用 有 向 图 表示 ， 而 关系 ADJACENT_TO 则 没有 方向 性 。 有 向 图 的 示意 图 可 以 通过 在 
边 一 端 加 上 箭头 来 表示 。 如 果 我 们 用 包括 两 个 方向 的 有 序 点 对 的 描述 方式 重新 描述 上 面 的 例 290 
子 ， 原 图 表示 为 : G= (V, E), KH, E~{(a,b),(b,a),(b,c),(c,b),(a,c),(c,a), (b, €), 
(e, b) (d, f£), (f. d). MR V(a,bEV)[(a,b)EE <> (b,a)EE] ， 则 定义 为 无 向 图 ; 反之 ,该 图 是 
有 向 图 (在 某 些 特殊 的 情况 下 ， 也 用 到 局 部 有 向 这 个 较 罕见 的 术语 )。 


12.2 图 的 性 质 


在 这 一 节 里 ， 我 们 定义 一 些 在 后 续 关 于 图 的 讨论 中 将 要 用 到 的 术语 : 

。 结 点 的 度 (degree) 是 指 进 入 这 个 结 点 的 边 的 数目 。 

。 结 点 wo 和 vw 之 间 的 路 径 (path) 是 指 一 个 结 点 序列 yo, vo …, v1/， 它 满足 :对 于 任意 的 i，v; 
和 vi 之 间 存 在 一 条 边 。 

。 图 连通 (connected) 是 指 图 中 任意 两 个 结 点 之 间 存 在 一 条 路 径 。 

。 完 全 子 图 (clique) 是 指 任意 两 个 结 点 之 间 都 有 一 条 边 的 子 图 。 
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“ 树 (tree) 是 指 没 有 回路 的 图 。 在 加 速 马尔 科 夫 模型 的 应 用 [12.8] 中 将 涉及 这 个 概念 。 
12.3 图 结构 的 实现 


.在 计算 机 中 实现 存储 图 结构 的 第 一 种 数据 结构 就 是 如 图 12-2 所 示 的 链表 。 这 一 数据 结构 
包括 两 部 分 数据 : 

* 结 点 (nodes) 一 一 由 两 个 指针 组 成 (地 址 )。 

。 元 素 (atoms) 一 一 数据 。 

我 们 用 某 1 位 来 表示 元 素 和 结 点 ， 该 位 往往 是 一 个 计算 机 字 中 最 大 的 一 位 。 某 些 结 点 右 半 
包含 一 个 0， 用 来 表示 链表 的 表 尾 。 在 图 12-2 中 这 些 结 点 用 右 半 部 画 又 的 符号 表示 。 链 表 同 样 
可 以 存储 计算 机 指令 ， 这 为 自动 编程 提供 了 强 有 力 的 机 制 。 这 是 程序 语言 LISP 的 基础 。 

链表 的 概念 不 仅 引 入 到 更 现代 的 程序 语言 中 ， 而 且 使 其 更 加 通用 。 例 如 一 种 如 图 12-3 所 
示 的 结构 既 包 含 数 据 域 也 包含 指针 域 ， 这 个 指针 域 既 可 以 指向 同类 指针 ， 也 可 以 指向 不 同类 
的 指针 。 下 面 C 语 言 的 定义 描述 了 如 图 12-3 所 示 的 数据 结构 。 


struct patch 
int area; 

int perimeter; 
struct *patch; 
Struct *patch; 








图 12-2 在 链表 中 ， 每 个 结 点 包括 两 个 指针 。 图 12-3 更 一 般 的 数据 结构 既 包 括 数据 域 也 包 
右 部 含 0 的 指针 表示 表 尾 括 指 针 域 


C 语 言 会 将 *patch 识 别 为 指向 另 一 个 结 吉 构 类 型 patch 的 指针 。 
124 区 域 邻接 图 


在 模型 匹配 中 ， 我 们 将 用 到 区 域 邻接 图 (region adjacency graph，RAG) 来 确定 图 像 划 
分 (segmented image) 中 的 区 域 是 否 能 够 匹配 上 三 维 模型 中 的 面 。 图 12-4 表 示 一 个 六 面体 
模型 。 

图 12-4 所 示 模 型 的 RAG 表 示 如 图 12-5 所 示 。 图 12-6 给 出 了 另外 一 个 例子 。 

现在 的 问题 是 : 对 于 给 定 一 个 观测 结果 及 由 此 得 到 的 RAG 表 示 ， 和 一 个 模型 的 集合 及 其 
对 应 的 RAG 图 ， 要 求 哪个 模型 与 观测 结果 最 为 匹配 ?我们 将 在 后 面 详细 讨论 这 个 匹配 问题 。 

还 有 其 他 的 图 表示 方法 ， 也 是 可 行 且 有 用 的 ， 例 如 ， 结 构 实 体 几 何 学 (constructive solid 
geometry, CSG) 领域 使 用 一 组 基 元 的 变换 表示 自动 另 件 制造 系统 的 输入 。 其 中 基 元 是 指 类 
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似 球 体 、 柱 体 的 物体 。 参 考 文献 [13.8] 提 出 了 使 用 CSG 模 型 表示 的 场景 与 模型 的 匹配 方法 以 及 
RAG 模 型 表示 。 
E D 


Po 


F 
图 12-4 六 面体 图 12-5 图 12-4 所 示 三 维 物体 的 RAG 表 示 292 





图 12-6 图 像 及 其 RAG 表 示 


场景 图 

首先 ， 为 了 叙述 方便 ， 在 讨论 模型 的 时 候 ， 我 们 使 用 “区 域 ”表示 可 以 辨认 的 表面 、 
面 等 。 当 我 们 讨论 分 割 算法 的 输出 时 ， 观 测 结果 中 的 “区 域 ”一 般 用 “ 面 片 ”(patch) 来 
表示 。 

模型 的 RAG 表 示 并 没有 包含 很 多 信息 ， 仅 仅 包括 区 域 集合 及 其 邻接 关系 。 我 们 可 以 通过 
在 RAG 中 增加 信息 得 到 一 张 新 图 ， 这 就 是 我 们 所 说 的 场景 图 (scene graph)。 在 场景 图 中 ， 结 
点 有 若干 属性 ， 比 如 ， 其 对 应 片 的 面积 、 颜 色 、 反 射 率 等 等 ， 如 图 12-7 所 示 。 




















图 12-7 被 分 隔 成 三 个 片 的 物体 的 图 像 的 场景 图 








N 
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更 进一步 讲 ， 场 景 图 也 可 以 用 来 表示 多 重 衡量 的 关系 。 在 一 个 简单 的 RAG 中 ， 边 仅 用 来 
表示 结 点 之 间 的 邻接 (ADJACENT_TO) 关系 ， 而 我 们 可 以 同样 用 边 表 示 仅 大 于 
(JUST. LARGER THAN) 关系 ,从 而 能 够 具有 一 种 机 制 ， 根 据 图 中 的 面 片 大 小 或 者 其 他 属性 
选择 图 中 的 路 径 。 对 于 某 些 特殊 的 应 用 而 言 ， 它 能 够 提供 便利 。 

通常 ,场景 图 有 以 下 特点 : 

* 面 片 链表 根据 基 势 (cardinality， 片 中 像素 的 个 数 ) 排序 。 

* 每 个 结 点 都 有 一 个 指向 相 邻 面 片 的 指针 。 


12.5 图 匹配 的 应 用 : 子 图 同 构 问题 


在 计算 机 科学 中 ， 如 令 n 表 示 问 题 的 数据 规模 ， 则 根据 程序 运行 的 时 间 与 an 的 函数 关系 ， 
所 有 的 问题 被 分 为 如 下 几 类 : 

* 多 项 式 时间 复 杂 度 问题 ， 时 间 耗 费 可 以 用 n 的 多 项 式 表 示 、 如 1xn。 

* 指数 时 间 复 杂 度 问题 ， 时 间 耗 费 可 以 用 指数 表示 ， 如 1xe”。 

* NPXERE (np-hard) 问题 : NP 表 示 非 多 项 式 级 ， 而 实际 是 指数 级 的 意思 。 可 以 证 明 NP 难 

解 问题 的 时 间 复 杂 度 是 指数 级 的 ， 也 就 是 说 ， 可 以 证 明 不 存在 一 种 多 项 式 时 间 复 杂 度 的 

算法 能 够 解决 此 类 问题 。 

“NP 完 全 (np-complete) 问 题 : NP 完全 问题 是 指 目前 已 知 的 算法 中 不 存在 多 项 式 时间 复 杂 

度 的 算法 能 够 求解 的 问题 ,但 是 不 能 证 明 不 存在 这 样 的 算法 。 任 何 能 够 用 多 项 式 级 时 间 

复杂 度 解决 一 个 NP 完全 问题 的 算法 都 将 是 戏剧 性 的 突破 ， 因 为 所 有 的 NP 完全 问题 是 等 

价 的 ， 也 就 是 说 ， 能 够 解决 一 个 NP 完全 问题 的 算法 ， 就 能 解决 其 他 问题 。 

子 图 同 构 问题 是 解决 场景 图 与 RAG 图 匹配 的 一 种 方法 。 基 原理 很 简单 ,我 们 得 到 了 一 个 场 
景 图 ,并 假设 分 割 器 正常 工作 (在 实际 图 像 中 是 一 个 理想 化 的 假设 )， 此 外 ， 对 于 每 个 模型 ， 都 
有 一 个 RAG 图 。 我 们 是 通过 寻找 与 某 模型 的 子 图 匹配 的 场景 图 来 实现 匹配 的 。 然 而 ， 构 造 出 
一 个 模型 的 图 的 所 有 子 图 的 时 间 复 杂 度 是 指数 级 的 ， 这 是 一 个 NP 完全 问题 。 使 用 启发 式 搜索 
能 够 极 大 地 提高 算法 性 能 [12.4]。 

我 们 将 在 13 章 详细 讨论 这 个 问题 。 


12.6 外 观 图 


假设 一 个 多 面体 以 其 重心 为 原点 。 考 虑 一 个 面向 原点 的 摄像 机 拍摄 的 图 片 ， 摄 像 机 位 于 
三 维 空间 中 球 坐标 为 [p, 6, 由 的 位 置 ， 其 中 6 表示 治 x 轴 的 旋转 角度 ， z 
4 表示 沿 y 轴 的 旋转 角度 ， 如 图 12-8 所 示 。 
如 果 o 是 常数 ， 则 摄像 机 可 能 的 位 置 的 轨迹 是 以 原点 为 圆心 的 一 
个 球面 。 这 里 ， 我 们 仅 考 虑 这 种 情况 。 因 此 ， 可 以 认为 摄像 机 在 球面 
上 运动 。 如 图 12-9 所 示 ， 两 个 不 同 拍摄 位 置 的 拍摄 结果 截然 不 同 。 但 
是 除了 少数 特殊 情况 以 外 ， 如 果 假 设 摄像 机 的 位 置 只 有 微小 的 变动 ， “* 
拍摄 结果 也 只 会 产生 较 小 的 差别 。 图 12-8 令 物 体 的 重心 在 
然而 有 时 当 摄像 机 只 有 微小 移动 时 ， 视 图 却 可 能 发 生 某 些 质 的 改 坐标 系 的 原点 
变 一 一 物体 的 某 些 表 面 会 出 现 或 者 完全 消失 。 也 就 是 说 ， 视 图 的 拓扑 结构 变 了 。 
我 们 定义 两 个 视点 Vi 和 V, 在 外 观 上 是 等 价 的 ， 记 做 Vi~V,。 条 件 是 当 且 仅 当 摄像 机 沿 一 条 


y 
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从 Vi 和 V: 的 路 径 , 经 过 一 串 微小 的 移动 后 ， 所 拍摄 的 图 的 拓扑 结构 保持 不 变 。 显 然 ， 这 个 等 价 
具有 对 称 性 、 自 反 性 和 传递 性 。 因 此 ， 这 是 等 价 关 系 ， 并 将 球面 上 所 有 的 视点 划分 成 等 价 类 一 一 
视点 空间 等 价 划分 (viewpoint space partition)， 记 为 VSP。 等 价 划分 中 的 每 个 元 素 称 为 视点 
区 域 (viewing region)。 图 12-10 显 示 了 图 12-5 中 的 四 面体 模型 的 VSP。 外 观 图 (aspect graph) 
是 VSP 图 的 对 偶 。 














图 12-9 两 个 不 同 观测 位 置 产生 的 视图 完全 不 同 图 12-10 VSP 的 每 个 划分 是 根据 不 同 视角 所 能 
观测 到 的 物体 表面 决定 的 


我 们 可 以 通过 构造 标号 结构 图 (labeled image structure graph, LISG) 来 计算 外 观 图 
112.2]， 标 号 结构 图 是 一 种 带 标 号 的 图 (augmented graph)， 其 中 每 个 结 点 对 应 线条 图 中 的 一 
个 顶点 ， 每 条 弧 对 应 被 结 点 分 成 的 线段 。 我 们 给 这 些 弧 增加 一 些 标记 ，++、-- 和 一 ， 如 第 10 
章 那 样 用 来 对 应 表示 凸 、 思 和 和 谴 挡 的 含义 。 参 考 文献 [12.2] 中 提 到 的 分 割 球 算法 使 得 每 个 分 割 
中 的 所 有 点 都 有 同 构 的 标号 结构 图 。 

对 于 使 用 正 投影 的 任意 多 面体 ( 可 能 是 非 凸 的 多 面体 ) ， 该 算法 的 〈 多 项 式 级 ) 计算 复杂 
度 很 高 。 对 于 mn 面体 ， 最 坏 情 况 下 的 时 间 复 杂 度 为 D(za)。 

外 观 图 最 初 是 由 Koenderink 和 Van Doorn[12.3] 提 出 的 ， 继 而 被 很 多 人 继续 研究 。Bowyer 
和 Dyer[12.1j 在 1990 前 对 此 做 了 很 好 的 研究 。 很 多 近期 的 研究 都 集中 在 研究 采样 数据 这 种 十 分 
麻烦 的 问题 上 [12.7]。 


12.7 结论 
图 的 概念 贯穿 机 器 视觉 的 始终 。 参 考 文 献 [12.6] 介 绍 了 更 多 的 场景 结构 图 以 及 用 到 了 场景 


结构 图 的 贝 叶 斯 网 。 正 如 我 们 现在 所 知道 的 ， 在 10.1 节 中 使 用 的 用 于 标记 线条 图 的 搜索 算法 


实际 上 搜索 了 一 棵 解释 树 。 





12.8 术语 
外 观 图 aspect graphs 
完全 子 图 clique 
连通 connected 
度 degree 
边 edge 
同 构 isomorphic 
结 点 node 
NP 完全 问题 NP-complete 
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路 径 path 
区 域 邻 接 图 region adjacency graph, RAG 
场景 图 scene graph 
hj tree 
顶点 vertex 
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第 13 章 图 像 匹 配 


One of these things is not like the other. 
Besame tree 
这 一 章 将 考虑 与 匹配 有 关 的 问题 。 匹 配 是 指 将 观察 到 的 图 像 与 模型 匹配 ， 以 及 图 像 之 间 
的 匹配 。 我 们 将 考虑 图 像 表 达 的 匹配 以 及 图 论 表 达 方 式 的 匹配 。 
匹配 的 结果 表示 对 景物 的 一 种 解释 ， 也 可 以 说 它 将 两 种 表达 方式 对 应 起 来 ， 具有 如 下 
特征 : 
“两 种 表达 可 以 是 同一 种 类 型 的 。 例 如 ， 相 关 计 算 将 观察 到 的 图 像 与 模板 进行 匹配 。 与 此 
相似 ， 子 图 同 构 将 一 个 区 域 邻 接 图 与 模型 图 的 子 图 进行 匹配 。 
。 两 种 表达 也 可 以 是 不 同形 式 的 。 例 如 一 幅 图 像 与 描述 某 件 事 的 一 段 话 匹 配 。 在 这 类 应 用 
中 大 多 是 关于 用 一 个 方程 式 与 一 些 数据 匹配 的 问题 ， 在 这 种 情况 下 ， 用 “ 拟 合 ”( fitting ) 
这 个 词 似乎 更 恰当 。 
在 这 一 章 中 我 们 将 讨论 除了 拟 合 之 外 的 各 种 匹配 问题 ， 而 拟 合 已 在 本 书 的 前 些 章 中 讨论 
过 了 。 


13.1 图 像 表 达 的 匹配 
13.1.1 模板 匹配 


模板 是 图 像 (或 其 子 图 ) 的 一 种 表达 方式 ， 它 本 身 仍然 是 一 幅 图 像 。 一 般 情况 下 ， 模 板 
在 目标 图 像 (target image ， 指 含 检 索 目 标的 图 像 一 一 译 者 注 ) 中 来 回 移动 ， 直 到 找到 使 某 个 
匹配 函数 值 达到 最 大 的 位 置 为 止 。 最 常用 的 函数 是 式 (13-1) 表示 的 平方 误差 


SE(x,y) = $3 Fc ey - B) - Tto Bp (13-1) 
(其 中 ， 假 设 模板 的 尺寸 是 N x N) ， 它 对 模板 (T). SHR (f) 在 (x, ?坐标 处 图 像 之 间 匹 
配 的 程度 提供 了 度量 。 如 果 将 平方 计算 展开 并 进行 求 和 计算 ， 就 可 以 得 到 


SE(x,y) = Eire mae 
a=] Bal (13-2) 
Y Tap) 

让 我 们 看 一 看 其 中 这 些 项 : 第 一 项 是 图 像 中 所 关注 点 ( 邻 域 ) 亮度 的 平方 和 。 它 与 图 像 
与 模板 之 间 的 匹配 与 否 无 关 (尽管 它 的 确 与 图 像 有 关 )。 第 三 项 只 是 模板 中 元 素平 方 之 和 ， 是 
一 个 常数 ， 与 模板 处 在 图 像 中 什么 位 置 无 关 。 显 然 ， 第 二 项 是 匹配 与 否 的 关键 ， 而 该 项 就 是 
相关 计算 (correlation ) 。 
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在 使 用 最 佳 准则 进行 匹配 的 过 程 中 ， 常 假设 匹配 的 质量 可 以 用 一 组 参数 as={a, a,,…, a,} 
描述 ， 这 些 参 数 也 可 以 是 像素 本 身 。 我 们 定义 一 个 品质 函数 (merit function) M (a, ©) 对 
模板 与 局 部 图 像 之 间 的 匹配 质量 进行 评估 。 匹 配 过 程 就 是 要 确定 使 M 值 达 最 大 的 参数 a。a 往 
往 就 是 确定 模板 所 在 位 置 的 XY 坐标 ， 这 是 很 典型 的 情况 。 

如 果 MM 对 a 是 单调 变化 的 ， 则 可 通过 下 式 使 M 达 到 最 大 : 


-M0 H jeden (13-3) 
/ dj 


如 果 M 不 是 单调 变化 的 ， 那 么 寻找 使 该 念 导 数 为 零 的 点 的 过 程 就 可 能 停留 在 局 部 极 大 值 。 
此 外 ， 我 们 也 曾 提 到 ,， 式 (13-3) 也 可 能 没有 解析 解 ， 此 时 ， 可 以 使 用 看 坡 法 (hill 
climbing). 


a; =a; +cM, (13-4) 


一 般 说 来 ， 这 种 策略 对 模板 匹配 是 一 种 困难 的 方法 ， 原 因 是 ， AF 通常 包含 多 重 极 


小 ， 以 及 平坦 的 峰 而 很 难 利 用 。 然 而 一 旦 碰巧 接近 到 匹配 点 ， 则 利用 让 坡 方法 就 可 能 获得 一 
个 最 佳 匹 配 。 峰 值 的 宽度 可 以 用 某 种 技巧 heuristics) 加 以 减 小 ， 璧 如 [13.7] 中 只 用 纯 相 位 信 
息 进行 匹配 (phase only matching). 

如 果 假 设 对 图 像 的 分 割 结果 是 正确 的 ， 那 么 匹配 就 可 以 在 二 维 的 二 值 形状 (binary shape) 
之 间 进 行 ， 这 些 形状 可 以 先 用 一 种 合适 于 它们 的 仿 射 (或 相似 ) 变换 进行 变换 ， 然 后 对 变换 
后 的 区 域 进行 模板 匹配 。 一 般 说 来 ， 可 以 通过 将 一 些 不 可 能 的 匹配 方案 屏蔽 掉 的 方法 降低 模 
板 匹 配 的 复杂 度 [13.37]。 正 如 在 11A.4 节 中 已 看 到 的 ， 图 像 之 间 的 匹配 是 立体 视觉 系统 中 极其 
重要 的 环节 [13.31]。 

在 模板 匹配 系统 中 一 个 基本 的 问题 是 对 模板 尺寸 的 选择 问题 。 如 果 模 板 选择 得 过 小 ， 就 
难以 顾及 图 像 的 变化 ， 以 致 无 法 做 出 准确 的 估计 。 如 果 模 板 太 大 ， 则 窗 唱 中 窗 盖 的 面积 太 大 ， 
就 无 法 实现 匹配 。 因 此 有 一 些 自 适应 的 算法 [13.27]。 除 此 之 外 ， 在 匹配 时 要 考虑 对 怎样 的 目 
标 函 数 实 现 最 小 化 。 平 方 误差 与 信 噪 比 并 不 一 定 总 是 最 好 的 选择 。 


13.1.2 点 匹配 


也 可 以 把 图 像 看 作 是 点 的 集合 ， 点 之 间 的 距离 已 知 (这 可 以 看 作 是 下 一 节 讨论 的 带 弹 得 
模板 问题 的 一 种 情况 ， 横 板 本 身 就 很 简单 ) 。 作 为 一 个 例子 ， 在 合成 孔径 雷达 (Synthetic 
Aperture Radar, SAR) 图 像 中 识别 目标 时 ， 这 类 数据 就 会 出 现 。 此 时 ， 解 决 问题 的 方法 是 假 
设 物 体 的 三 维 模型 已 知 ， 搜 索 一 个 从 三 维 到 二 维 的 变换 ， 它 能 最 好 地 解释 观察 的 图 像 
[13.53]; 也 可 参考 [13. 3]. 

在 立体 视觉 中 进行 匹配 可 以 利用 边 与 角 点 的 特征 以 及 外 极 线 约束 ， 也 可 使 用 概率 模型 
[13.47]. 


13.1.3 线段 匹配 


短 的 弧 与 一 组 长 弧 之 间 的 匹配 问题 也 在 参考 文献 中 提出 [13.3，13.39，13.47]， 但 相应 的 
三 维 问题 至 今 仍 未 引起 太 多 人 注意 ， 原 因 是 抽取 三 维 曲线 太 困 难 ; [13.22] 提 供 了 一 种 方法 。 
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13.1.4 特征 图 像 


特征 图 像 (eigenimage) 技术 已 成 为 物体 鉴别 与 识别 这 一 类 问题 的 一 个 有 效 方法 [13.49， 
13.50]。 在 这 些 问题 中 一 个 未 知 物体 的 图 像 与 数据 库 (或 一 个 训练 集 ) 中 的 已 知 物体 相 比 较 ， 
如 有 果 找 到 一 个 很 相近 的 匹配 ， 则 该 未 知 物体 就 被 鉴别 或 识别 出 来 。 这 种 比较 当然 可 以 用 像素 
对 像素 的 方式 做 ， 但 是， 如 果 图 像 尺寸 很 大 时 ， 以 及 数据 库 中 图 像 的 数目 很 大 时 ， 这 显然 是 
很 费时 间 的 。 

特征 图 像 技术 起 源 于 主 分 量 分 析 (principal component analysis，PCA )， 这 是 一 种 流行 的 
降 维 方法 。 一 种 类 型 的 PCA 与 K-L 变 换 在 9.2.1 节 中 详细 地 描述 。PCA 用 一 组 正 交 基 向 量 来 描述 
数据 ， 这 些 基 向 量 是 由 数据 生成 的 协 方差 矩阵 的 特征 向 量 组 成 。 将 数据 投影 到 占 主 导 地 位 的 
特征 向 量 ( 对 应 大 的 特征 值 ) 上 ， 可 在 信息 损失 最 小 条 件 下 将 原 数据 集 的 维 数 降低 。 

与 此 相似 ， 在 特征 图 像 方法 中 ， 每 幅 图 像 也 是 用 一 组 占 主 导 地 位 的 主 分 量 (特征 图 像 ) 
的 线性 组 合 表示 ， 因 此 匹配 转 而 在 线性 组 合 的 系数 (或 对 特征 图 像 投 影 的 权重 ) 基础 上 进行 ， 
这 大 大 加 速 了 匹配 过 程 。 由 于 投影 保留 了 大 部 分 能 量 ， 因 而 最 大 程度 地 反映 了 数据 库 的 变化 
量 。 下 面 讨论 计 算 特 征 图 像 的 细节 。 

Sfo heo h 表示 数 据 库 中 已 知 物体 的 一 组 图 像 。 为 了 不 失 一 般 性 ， 假 设 这 些 图 像 具 有 相 
同 尺寸 n xn, WITA FART LAS HER. 


Sub ”对 每 幅 图 像 / ， 减 去 平均 图 像 A， i?) 三 生成 相应 的 字典 顺序 式 表达 (即将 
pt 


图 像 逐 行 顺 序 排列 起 来 成 向 量 )， 从 而 得 到 一 向 量 集 {I …, 1/,)}，4=f -A4， 每 个 向 量 是 mn x 1 维 。 

第 2 步 计算 这 向 量 集 的 协 方 差 矩 阵 

C- LI; (13-5) 

其 中 C 是 一 个 mn x mn 矩阵 。 

第 3 步 使 用 特征 值 分 解 技术 得 到 矩阵 C 的 特征 向 量 与 特征 值 

C= EAE" 

其 中 E 是 一 个 mn x mn 矩阵， 其 每 个 列 向 量 是 C 的 特征 向 量 (或 称 C 的 一 幅 特 征 图 像 )， 人 是 一 
个 对 角 和 矩阵 


A 
A=|0 = 0 
0 








mn 


主 对 角 元 素 是 C 的 特征 值 ， A DAYS k mn 
第 4 步 假设 在 所 有 mn 个 特征 值 中 ， 前 x 个 值 要 比 其 余 的 大 很 多 ， 也 就 是 2^ Mea 


很 接近 于 1。 因 此 可 以 用 前 k 个 特征 值 来 构造 原 图 ， 而 不 至 于 丢失 太 多 信息 。 和 希望 能 做 到 
k««mn, 、 
第 5 步 ” 为 了 进行 比较 ， 计 算 每 幅 图 像 六 ( 减 去 平均 值 的 图 像 一 - 译 者 注 ) 对 所 选 的 特征 图 
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W, = 1; x[E,---E,] (13-6) 


SEE, AIRE IR. W 是 一 个 p x k 的 矩阵 ， 包 含 原 图 到 每 幅 特 征 图 像 的 投影 系数 。 

则 比较 过 程 可 以 很 容易 按 以 下 方式 进行 : 给 出 在 待 测试 图 像 中 未 知 物体 的 图 像 f, 计算 其 投影 
系数 

W, 


HW GAERA W, 进行 比较 ( 欧 氏 距离 可 能 是 最 简单 的 情况 ) ; 距离 最 近 者 被 选 作 匹 
配 结果 。 

下 面 显示 将 特征 图 像 方法 应 用 到 人 脸 识 别 的 例子 [13.51]。 假 设 在 数据 库 中 有 三 幅 图像 
(Lena, Einstein 以 及 一 座 钟 )。 而 未 知 图 像 是 Monalisa ( 蒙 娜 丽 莎 )。 按 照 上 述 第 1 到 第 3 步 ， 
得 到 64 x 64 特 征 图 像 。 只 使 用 占 主导 分 量 中 的 两 个 ， 因 为 这 两 个 特征 值 之 和 与 所 有 特征 值 之 
和 之 比 已 接近 于 1。 图 13-1 表 示 了 所 有 原 图 以 及 由 这 两 幅 特征 图 像 合成 的 结果 。 按 第 5 步 方式 ， 
计算 所 有 4 幅 原 图 对 这 两 幅 特 征 图 像 的 投影 系数 ， 它 们 也 列 在 图 13-1。 根 据 最 简单 的 欧 氏 距离 


= Weg XE 






计算 方法 ， 与 Monalisa 最 匹配 的 是 Einstein ( 爱 因 斯 坦 )。 是 否 感到 惊奇 ， 其 实 不 然 ， 从 计算 机 
的 “眼睛 ”看 来 ， 这 两 幅 图 像 的 相似 程度 的 确 高 于 Monalisa 与 Lena 之 间 的 相似 程度 。 
训练 图 像 测试 图 像 
原 图 像 
第 一 与 第 一 
特征 图 像 
E; 

投影 系数 

W, =[-1.422-0.8161],W, =[-1.7015 0.7688],W, = [3.1235 0.0473] 

W,, = [-1.4399 0.4710] 


距离 


d, es = 1.2872, d, „a = 0.3963 d; „„ = 3.5831 


图 13-1 利用 有 三 幅 图 像 (Lena, Einstein 58h) 的 数据 库 以 及 一 幅 测 试图 像 (Monalisa) 为 例 ， 
演示 特征 图 像 方法 。 这 些 图 像 尺 寸 有 所 调整 ， 以 便于 演示 


降低 计算 复杂 度 
尽管 特征 图 像 方法 在 图 像 匹配 方面 很 有 潜在 应 用 ， 但 是 从 上 述 计算 过 程 来 看 ， 最 费时 间 
的 步骤 是 获取 特征 系统 ( 指 特征 值 与 特征 向 量 一 一 译 者 注 )。 当 图 像 的 尺寸 较 大 时 ， 计 算 协 方 
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差 矩 阵 〈 是 mn x mn 矩阵 ) 会 占用 大 量 计算 资源 ， 或 者 就 根本 无 法 实现 。 读 者 可 参考 [13.34， 
13.35] 了 解 更 加 有 效 的 计算 方法 。 . 
我 们 通过 一 个 例子 来 说 明 减 少 计算 量 的 方法 。 假 设 每 幅 图 像 只 有 三 个 像素 ， 并 且 数 据 集 
中 只 有 两 幅 图 像 ， 它 们 分 别 为 
f= 2 3)" 
f= 8 9 
那么 其 均值 4=[3 5 6] ,以 及 
站 =[-2 -3 -3y 


L=[2 3 3F 
Ki — AERES. 1,]， 其 中 第 i 列 是 图 像 1, 并 考虑 乘积 5=17"。 在 这 个 例子 中 
-2 2 8 12 12 
I2|-3 3|, $-|12 18 18 
-3 3 12 18 18 














可 以 看 到 如 果 p<mma， 那 么 $ 就 是 散射 矩阵 。 它 与 协 方差 矩阵 除了 在 一 个 相 乘 比例 因子 外 
是 一 样 的。 如 果 图 像 尺 寸 是 256 x 256， 那 么 S 的 尺寸 是 很 大 的 ， 是 256? x 256?。 然 而 ， 如 果 说 
数据 集中 只 有 5 幅 图 像 ， 则 7 是 256? x 5, ii DES x 5。 如 果 bw 是 起 特征 向 量 中 的 一 个 ， 则 有 
TIu, = Ab; (13-7) 
以 下 是 数学 问题 : FHISE (13-7) 式 两 边 ， 得 到 7 I'Iu-IA, HA Tu, TER, Iu, 是 中 的 一 个 特征 
向 量 。 由 于 7 的 尺寸 要 远 小 于 1T， 则 在 决定 特征 向 量 的 过 程 中 计算 复杂 度 也 相应 极 大 降低 。 
这 样 一 来 ， 如 果 e; 是 5 的 特征 向 量 ， 则 可 以 用 下 式 得 到 


p 
e; = Iu, DL (13-8) 
= 


13.2 匹配 简单 特征 


在 第 9 章 中 讨论 过 使 用 简单 特征 的 最 直接 的 方法 ， 是 在 模式 分 类 器 中 使 用 它们 。 为 了 做 到 这 
一 点 ， 要 为 模型 与 ( 待 匹配 ) 物体 提取 统计 表示 式 ， 并 用 这 些 表 示 式 进行 匹配 。 其 策略 如 下 : 

* 确定 用 何 种 度量 方法 来 描述 形状 。 例 如 ， 可 以 建立 一 个 有 8 个 特征 的 系统 ， 其 中 7 个 是 不 
变 矩 ， 另 一 个 是 长 宽 比 。 最 好 的 特征 组 合 是 依赖 于 具体 应 用 的 ， 而 最 佳 地 选择 特征 集 的 
方法 超出 本 书 范围 (参考 [14.4，14.11，18.30]， 这 些 只 是 许多 统计 方法 教科 书 中 的 一 些 
例子 )。 将 这 8 个 特征 组 织 成 向 量 x=[xi, x,,…, xl" 

* 用 一 组 作为 例子 的 图 像 ( 称 为 “训练 集 ")， 在 这 些 图 像 中 抽取 出 相应 特征 ， 并 用 此 来 描 
述 “ 模 型 ”物体 。 以 下 继续 讨论 有 8 个 特征 的 例子 ， 我 们 可 以 收集 黎 子 (axe) 的 几 幅 图 
像 ， 对 每 个 斧子 的 特征 进行 度量 ， 然 后 用 这 些 参 子 特征 的 平均 值 来 摘 述 斧子 的 “ 模 


W, uum y usur s FH (hatchet) 也 可 以 用 -组 手 源 的 样本 图 像 建立 模型 


“ 按 上 所 述 ， 对 一 个 给 定 的 未 知 区 域 用 一 个 特征 向 量 x 表 示 ， 那 么 形状 匹配 就 是 要 找到 一 
个 模型 ， 它 在 某 种 意义 上 与 所 观察 到 的 区 域 “ 最 接近 ”。 一 般 “ 接 近 ” 的 最 简单 定义 是 








Uu 
c 
A 
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使 用 欧 氏 距离 : 


d(modelaxe, observation) = (x — Mare)" (X — Haze) 


d(mod elhatchet, observation) = N (X — Uie (X 7 Pana) 


而 决策 由 距离 最 小 者 确定 。 

这 个 例子 的 一 些 计 算 还 是 过 于 简朴 的 ， 有 比 使 用 均值 更 好 的 建 模 方式 ， 使 用 其 他 的 距 
离 度 量 也 可 能 会 比 欧 氏 距离 的 效果 更 好 。 统 计 模式 识别 领域 的 一 些 概念 会 在 第 14 章 更 详细 
地 讨论 。 


19.3 图 匹配 


” “在 这 一 节 我 们 讨论 的 问题 基本 上 仍 是 基于 图 的 图 像 表示 匹配 问题 。 但 是 在 图 的 结 点 中 存 
的 数据 包括 图 像 或 模板 。 

回顾 一 下 N 尺 度 的 完全 子 图 (clique) 是 尺寸 为 N 的 全 连通 子 图 。 我 们 仍然 想 使 用 诸如 平 
均 方 误差 或 13.1.1 节 中 提 到 的 相关 作为 匹配 度量 ， 来 度量 匹配 的 “良好 程度 ”。 

在 一 个 单纯 基于 图 的 表示 中 ， 一 个 匹配 度量 可 以 是 子 图 同 构 。 但 是 子 图 同 构 并 不 真正 允 
许 相 近 但 并 不 完美 的 匹配 。 大 多 数 机 器 视觉 的 专家 认为 它 的 变通 性 太 差 。 

图 匹配 问题 也 可 以 用 退 了 火 的 神经 元 网 络 (annealed Neural network) 实现 [13.8] 。 

在 前 面 已 看 到 ， 松 弛 标号 也 能 为 某 种 类 型 的 图 匹配 提供 机 制 。 在 10.2.2 节 看 到 的 例子 中 能 
够 用 模型 图 的 子 集 与 场景 图 的 子 图 进行 匹配 (例子 中 的 两 个 表面 )。 也 有 些 变型 方法 ， 例 如 
Gold 与 Rangarajan [13.14] 描 述 了 一 种 图 匹配 的 变型 方法 ， 他 们 使 用 的 是 一 种 非 线 性 优化 方法 。 
他 们 宣称 ， 这 种 方法 比 松弛 标号 法 运行 得 快 得 多 ， 也 准确 得 多 。 

下 面 讨论 另 两 种 方法 关联 图 (association graph) 与 弹性 负荷 模板 (spring-loaded 
template ) 。 这 些 方 法 能 用 于 混合 表示 方法 产生 匹配 ， 也 就 是 说 ， 它 基本 上 是 基于 图 的 方法 ， 
但 包含 有 图 像 的 信息 。 


13.3.1 关联 图 


关联 图 体现 了 一 种 比 同 构 的 限制 要 少 而 收敛 得 更 快 的 方法 。 它 会 收敛 到 一 个 符合 一 致 性 
的 解 ， 但 不 一 定 最 优 (当然 这 取决 于 具体 应 用 中 使 用 的 最 优 准 则 )。 

这 种 方法 将 模型 的 一 组 结 点 与 从 图 像 中 (抽取 出 ) 的 一 组 结 点 匹配 。 

定义 

这 里 一 幅 图 定义 为 G=<V，P，R>， 其 中 V 表 示 一 组 结 点 ，P 表 示 一 组 用 于 结 点 的 单元 谓词 ， 
而 R 表 示 结 点 之 间 的 二 值 关 系 。 

谓词 (predicate) 是 一 种 只 取 True 与 False 两 值 之 一 的 语句 。 例 如 令 x 表 示 距 离 图 像 中 的 一 
个 区 域 ， 那 么 CYLINDRICAL (x) 是 一 个 谓词 ， 它 是 真 (true) 或 假 (false) 取决 于 x 内 的 所 
有 像素 是 否 都 处 在 一 个 柱 形 表面 上 。 

一 个 二 值 关系 描述 一 对 结 点 所 具有 的 属性 。 它 可 以 表示 成 一 组 有 序 对 R={(a1, b), (a, b), 
UO (an bw)}。 在 大 多 数 应 用 中 这 种 顺序 是 很 重要 的 。 也 可 以 把 关系 想像 成 谓词 ， 因 为 对 任何 
给 定 结 点 对 ， 如 (au b)， 可 以 是 R 集 合 中 的 一 个 元 素 ， 也 可 以 不 是 。 但 是 在 以 下 讨论 中 用 关系 
这 个 词 似乎 描述 起 来 更 方便 。 
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给 定 两 幅 图 ，G1= (V, P, R) 与 G= (V, P, R)， 可 构筑 一 个 关联 图 。 

. 对 两 幅 图 中 每 个 结 点 v, CV, v, EV, 如 果 Vi 与 %w 具 有 同样 属性 ， 则 在 G 中 建立 一 个 结 点 ， 

Tii, V2); 

。 如 果 rER 以 及 rvi vi) > rvV2,Y;) ， 则 将 (Yi, V2) 与 (i v) 连 起 来 。 

则 Gi 与 G6, 之 间 的 最 佳 中 配 是 6 的 最 大 完全 子 图 。 

与 机 器 视觉 中 任何 其 他 技术 一 样 ， 需 要 问 : “这 种 方法 有 多 好 ? ”， 要 想 回 答 这 个 问题 时 
又 引起 一 些 其 他 问题 。 

问题 1 ”最 大 完全 子 图 是 否 是 最 佳 匹 配 ? 最 大 完全 子 图 是 一 致 性 匹配 的 最 大 集 ， 它 是 不 是 
确实 是 最 佳 匹 配 ? 

问题 2 计算 复杂 性 ， 与 子 图 同 构 问题 一 样 ， 寻 找 最 大 完全 子 图 的 问题 是 NP 完全 问题 ， 也 
就 是 说 还 没有 用 少 于 指数 时 间 解 此 问题 的 算法 。 
使 用 关联 图 将 场景 与 模型 进行 匹配 的 一 个 例子 

在 图 13-2 中 表示 了 一 个 观察 中 出 现 一 个 分 割 错误 ， 过 分 割 的 情况 ， 其 中 区 域 B 与 C 实 际 上 
都 是 同一 区 域 的 一 部 分 。 由 于 某 种 度量 或 算法 错误 ， 被 标 成 两 个 分 开 的 区 域 。 在 该 例 中 所 用 
的 单元 谓词 是 标号 spherical (AJER), cylindrical ( 柱 形 的 ) 与 planar (平面 的 )。 区 域 A 与 1 
是 贺 形 的 ， 而 B，C，D，2 与 3 是 柱 形 的 。 只 有 具有 相同 谓词 的 结 点 才能 作为 匹配 的 候选 。 所 
以 只 有 A 与 1 匹配， 所 有 伐 选 匹配 作为 结 点 构造 一 幅 图 ， 就 得 到 了 图 13-3 所 示 的 关联 图 的 结 点 。 


A ma 
= ® 
| D | 
图 像 模型 
图 13-2 距离 摄像 观察 到 一 个 场景 ， 并 将 其 分 割 成 一 段 图 13-3 候选 匹配 


自满 足 同一 方程 的 分 段 ， 但 是 有 一 个 分 割 误差 


问题 的 挑战 性 在 于 : 鉴别 出 哪些 是 符合 一 致 性 的 一 一 确定 r-、(1，A，2，B)， 其 中 兼容 函 

数 r 的 含义 与 第 10 章 中 的 相同 ， 而 下 标 4 只 是 表示 正在 使 用 一 个 关联 图 。 一 般 说 来 ， 确 定 哪些 
是 不 一 致 的 (Not consistent) 要 容易 些 ， 并 且 这 是 一 个 与 问题 有 关 的 决定 。 在 这 里 定义 两 个 
标号 具有 一 致 性 ， 条 件 是 只 要 它们 并 不 对 应 于 同一 区 域 ( 即 一 个 区 域 不 能 有 两 种 不 同 标号 )。 
对 这 个 例子 来 说 一 些 一 致 性 可 表示 成 

r (1,A,2, B) =1 

r (2,B,2,C) =-1 

ra (2, B,3, B) =-1 


其 中 第 二 行 的 含义 是 图 像 中 的 B 区 域 以 及 C 区 域 不 能 同时 对 应 于 模型 中 的 2 区 域 ， 在 两 个 
例子 中 对 不 一 致 性 的 定义 都 是 根据 分 割 算法 工作 正确 为 前 提 的 。 然 而 应 该 允许 分 割 结 果 有 错 
误 。 此 时 关联 图 中 新 的 边 就 应 该 加 入 ， 因 为 有 新 的 关系 体现 了 一 致 性 。 例 如 r。(3, C, 3, D) 
=1， 因 为 我 们 认为 两 片 可 以 是 同一 区 域 的 一 部 分 (分割 算法 可 以 由 于 过 分 割 导致 错误 )， 但 是 
ra (2, D, 3, D) =— 1 仍然 成 立 ， 因 为 我 们 仍然 认为 分 割 算法 不 会 将 区 域 合并 起 来 (由 欠 分 割 
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导致 的 失误 )。 人 允许 过 分 割 就 得 到 了 图 13-4 所 示 的 关联 图 。 

要 注意 另 一 种 类 型 的 不 一 致 性 会 阻止 一 些 边 的 生成 : 3D 与 3B 是 不 能 连结 起 来 的 ， 因 为 B 
与 D 并 不 共享 边界 。 这 也 就 是 说 ， 我 们 认为 分 割 的 失误 如 果 是 由 过 分 割 引 起 的 ， 那 么 分 割 器 不 
会 在 这 两 个 之 间 引 入 一 个 完全 新 的 值 。 这 里 必须 强调 ， 制 定 这 些 规则 完全 取决 于 问题 。 

如 果 制 定 这 些 规则 ， 匹 配 就 是 直截了当 的 事 ， 只 要 找到 所 有 最 大 的 完全 子 图 就 行 了 。 最 
大 完全 子 图 并 不 是 唯一 的 ， 因 为 很 有 可 能 有 几 个 尺寸 相同 的 完全 子 图 。 

在 这 个 例子 中 ， 至 少 有 两 个 最 大 完全 子 图 ， 其 中 两 个 为 : {(1, A) (2, B) (2, C) (3, D)} 和 
{(1, A) (3, B) (2, C) (2, D. 


13.3.2 弹性 模板 


另 一 种 用 于 局 部 /全 局 问题 的 方法 是 “弹簧 和 模板 策略 ”[13. 13]。 这 是 一 种 混合 模型 匹配 
方法 ， 其 中 包含 图 结构 的 匹配 与 模板 匹配 。 这 种 模型 是 一 组 刚性 “模板 ”， 用 “弹簧 ” 连 起 来 ， 
这 种 连接 描述 了 对 模型 要 加 多 少 变形 才能 使 其 与 图 像 匹配 。 图 13-5 用 一 幅 简 单 的 人 脸 模 型 来 
说 明 这 种 概念 。 





图 13-4 细 实 线 表示 假设 分 割 器 设 有 错误 时 能 出 图 13-5 人 脸 的 一 个 弹性 加 模板 模型 
现 的 边 ， 虚 线 表 示人 允许 过 分 割 错误 的 情 
况 ， 粗 线 表示 最 大 完全 子 图 


其 中 一 些 特定 的 特征 ， 如 眼睛 等 采用 图 像 (iconic) 表示 方法 ， 使 用 模板 匹配 方法 进行 匹 
配 。 然 而 为 了 匹配 整 张 脸 ， 模 板 最 佳 匹 配 的 位 量 之 间 的 距离 也 被 记录 下 来 。( 例如 模板 匹配 后 
眼 图 像 与 鼻 图 像 之 间 的 距离 。 一 一 译 者 注 ) 匹配 则 是 基于 如 下 总 成 本 函数 的 最 小 化 


Cost = Y TemplateCost(d, F(d)) 


+ SpringCost( F(d), F(e)) 
d eCret xref (13-9) 
+ MissingCost(c) 
ar Missing ost(c | 
ER (13-9) 中 < 是 模板 ，F(d 是 图 像 中 应 用 该 模板 的 点 。 因 而 TemplateCcost 是 一 个 函数 ， 
它 表示 当 一 个 模板 用 到 它 的 最 佳 匹配 点 上 时， 模板 与 图 像 匹 配 的 程度 。( 匹配 程度 越 高 ， 该 项 函 
数值 越 小 。 译 者 注 ) SpringCost 则 是 度量 为 了 使 这 些 特定 模板 在 这 些 匹 配 位 置 上 匹配 ， 模 
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型 所 需 的 变形 (弹簧 的 拉 伸 )。 还 要 提 到 的 最 后 一 点 是 ， 并 不 一 定 要 求 每 个 模板 都 要 找到 其 位 
置 ， 辟 如 在 某 些 图 像 中 左 眼 可 能 看 不 到 ， 此 时 需要 用 为 丢失 的 物体 付出 代价 (Cost 既 可 译 代 
价 ， 也 可 译 成 本 。 一 一 译 者 注 )。 所 有 这 些 成 本 都 是 根据 经 验 确定 的 ， 但 是 一 旦 它们 被 确定 下 
来 ， 那 么 给 定 图 像 与 任何 给 定 模型 的 匹配 好 坏 就 容易 确定 了 。 

这 个 问题 并 不 只 是 弹簧 加 模板 才 有 。 一 般 常用 的 方法 是 对 成 本 计算 进行 规范 化 ， 和 譬如 使 
用 如 下 方式 


Cost = SpringCost(unary and binary) + constant 
.. Total number of springs Total number of references matched 
13.4 结论 


关联 图 直接 使 用 一 致 性 标号 的 概念 与 体系 。 使 用 图 结构 的 优点 在 于 ， 搜 索 最 大 完全 子 图 可 以 
求助 于 大 量 现成 的 执行 这 种 搜索 的 软件 ， 在 计算 复杂 性 限定 条 件 下 尽 可 能 地 快 。 而 弹簧 加 模板 的 想 
法 既 度 量 一 致 性 ， 又 度量 偏离 一 致 性 的 程度 。( 其 实 式 (13-9) 度量 的 是 匹配 不 一 致 性 ， 方 位 匹配 
的 不 一 致 性 ， 以 及 无 法 匹配 体现 的 不 一 致 性 ， 用 成 本 表示 。 一 译 者 注 ) 弹 筑 加 模板 的 概念 也 说 明了 
人 们 怎样 做 才能 构造 一 个 合适 的 目标 函数 ， 以 及 如 果 人 们 不 注意 对 目标 函数 的 分 析 ， 问 题 就 很 
容易 产生 一 一 如 果 我 们 将 匹配 质量 求 总 和 , 许多 事件 的 一 个 好 的 匹配 (将 数目 众多 的 小 数值 加 起 来 ) 
可 能 会 大 于 (并 因而 要 差 于 ) 一 个 只 对 少量 事件 匹配 的 差 匹配 (对 数量 不 多 但 数值 较 大 者 求 和 )。 

在 本 章 一 开始 我 们 就 曾 指出 正规 的 优化 方法 ， 如 梯度 下 降 法 或 “假山 ”法 ， 很 难 用 到 图 像 匹 
配 上 ， 这 是 因为 搜索 空间 布 满 局 部 极 小 值 。 但 是 ， 如 果 我 们 的 算法 的 初始 值 足够 接近 问题 的 解 ， 
这 种 技术 还 是 能 工作 的 。 我 们 使 用 平方 差 的 总 和 (SSD )， 有 时 也 称 平方 误差 总 和 ， 作 为 目标 函数 。 

特征 图 像 是 原 图 像 的 低 维 表示 。 选 择 这 种 投影 能 使 原 数据 与 投影 后 的 数据 之 间 的 误差 最 小 。 


13.5 术语 
关联 图 association graph 
完全 子 图 clique 
对 应 correspondence 
变形 模板 deformable template 
特征 图 像 eigenimage 
Vul; 25 hill - climbing 
匹配 测度 matching metric 
主 分 量 分 析 principal component analysis, PCA 
模板 template 
作业 13.1 


在 这 一 章 中 ， 我 们 指出 找 最 大 完全 子 图 的 问题 是 NP 完 全 的 。 这 究竟 意味 什么 ? 假设 你 有 
一 个 10 个 结 点 的 关联 图 ， 用 20 根 边 连 接 ， 你 需要 进行 多 少 次 测试 才能 找到 所 有 完全 子 图 (为 
了 确定 哪 一 个 完全 子 图 是 最 大 的 ， 你 必须 做 这 件 事 ) ? 请 从 图 论 书 中 找到 完全 子 图 检测 方法 。 


作业 13.2 
在 13.3.1 节 有 一 个 例子 是 关于 关联 图 的 ， 它 容忍 分 割 时 出 现 误差 ， 这 幅 关 联 图 的 结果 是 两 
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个 最 大 完全 子 图 ， 它 们 意味 着 对 景物 的 不 同 解释 。 用 语言 描述 这 两 种 解释 。 
作业 13.3 


在 本 章 的 参考 文献 中 ， 对 Olson[13.36] 有 一 个 不 完整 的 引用 。 首 先 ， 找 到 这 篇 文章 的 拷贝 。 
你 可 以 使 用 一 个 搜索 引擎 、Web 网 、 图 书馆 ， 或 任何 你 想 用 的 资源 。 在 那 篇 文章 中 ， 作 者 以 
一 种 不 同 的 方式 进行 模板 匹配 ; 使 用 一 个 二 值 (边缘 ) 图 像 与 一 个 相似 的 模板 ， 他 并 没有 问 
“该 模板 与 这 一 点 附近 的 图 像 匹配 吗 ? ”而 是 问 “在 这 一 点 ， 它 离 最 近 的 边缘 点 有 多 远 ? ” 
他 是 如 何 高 效 地 执行 这 种 搜索 操作 的 ? 
310 一 旦 他 得 知 到 最 近 边 缘 点 的 距离 ， 他 是 如 何 利用 这 种 信息 来 计算 匹配 度量 的 质量 的 ? 


作业 13.4 


在 一 个 图 像 匹 配 问 题 中 ， 我 们 有 两 种 类 型 的 物体 ， 狮 子 (lion) HÆ (antelope) (每 个 
物体 只 有 一 个 像素 大 小 )。 

。 一 个 场景 可 能 只 包含 狮子 与 羚羊 。 

t 狮子 成 群 更 食 ， 所 以 你 如 果 看 到 一 只 狮子 ， 会 至 少 看 见 另 一 只 狮子 ， 通 常 距离 有 5 个 像素 。 

，。 羚羊 是 尽 可 能 接近 地 靠 在 一 起 。 

“除了 某 些 极 少 出 现 以 及 (对 羚羊 ) 不 愉快 的 事件 发 生 ， 狮 子 与 羚羊 之 间隔 的 很 远 。 

我 们 希望 用 松弛 标号 方法 来 解 这 个 赋 标 号 问题 。 除 了 一 致 性 函数 r(c, A, b. 为) 之 外 ， 所 有 
的 公式 都 可 在 书 中 找到 ，< 与 5 是 图 像 中 感 兴趣 的 点 ，) 表 示 或 是 “羚羊 ”或 是 “狮子 ”的 标号 。 
为 此 问题 设计 一 个 r 国 数 ， 也 就 是 如 何 计算 以 下 函数 : 

1) r(a, lion, b, antelope) 

2) r(a, lion, b, lion) 

3) r(a, antelope, b, lion) 

4) r(a, antelope , b, antelope) 


作业 13.5 
你 认为 弹簧 加 模板 的 概念 可 以 应 用 到 作业 13.4 中 吗 ? 讨论 一 下 。 
作业 13.6 


继续 考虑 狮子 与 羚羊 的 问题 ， 你 从 另 一 角度 观察 场景 : 草图 没有 严格 | 3 
按照 比例 ， 但 是 为 了 方便 于 你 ,我 们 已 将 每 对 动物 之 间 的 距离 列 在 表 中 O O 
(8,3 13-1). 

狮子 是 黄色 〈 在 草图 中 用 灰色 孔 表示 ) 或 棕色 (用 黑色 孔 表示 ,在 图 。 ” 
中 实际 上 并 没有 一 译 者 注 )。 羚 羊 是 白色 的 〈 用 白色 和 孔 表示 ) 或 黄 的 。 D e^ 
希望 用 关联 图 方法 求解 该 问题 ; 由 于 这 种 技术 不 如 非 线性 松弛 法 强 有 力 ， 
你 请 教 一 位 植物 学 家 ， 是 的 ， 的 确 是 一 位 植物 学 家 ! 这 超出 了 他 的 管理 范 
围 。 他 给 予 你 一 些 改进 的 信息 : 狮子 永远 不 会 彼此 接近 到 距离 在 3 像素 之 

| 内 ， 而 羚羊 之 间距 离 则 永远 不 会 超过 3 像素 。 
对 此 问题 画 一 幅 关 联 图 〈 在 关联 图 中 结 点 用 成 对 的 符号 表示 ， 例 如 1L 表 示 “ 将 结 点 1 解释 


@ 2 
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成 独子 ”)。 最 大 完全 子 图 的 结 点 用 圆圈 圈 出 。 
表 13-1 成 对 动物 之 间距 离 


对 距离 (任意 单位 ) 
12 5.5 
13 2 
14 3 
15 2 
23 2 
24 3 
2,5 4 
3,4 2 
3,5 3.8 
4,5 34 





专题 13A 匹配 
13A.1 弹簧 加 模板 回顾 


回顾 一 下 在 4.2.2 节 讨 论 过 的 对 应 问题 , 它 可 以 重新 表示 为 “给 定 在 两 幅 图 像 中 的 一 组 特征 ， 
鉴别 出 在 图 像 1 中 哪个 特征 与 图 像 2 中 的 哪 一 个 特征 对 应 .” 模 型 匹配 的 问题 与 对 应 问题 之 间 没 


有 太 大 差别 ， 除 了 在 对 应 问题 中 两 幅 图 像 都 受到 噪声 影响 。 ge eS 
为 了 求解 对 应 问题 ， 可 以 使 用 基于 一 致 性 的 原理 。 在 6 EE 

这 一 节 中 用 一 个 例子 来 叙述 这 种 原理 ， 这 个 例子 也 将 在 ‘ 

13A.2 中 使 用 。 第 一 步 是 鉴别 一 些 相对 容易 区 分 的 特征 点 。 A 

接着 算法 要 利用 这 些 点 之 间 的 关系 。 在 一 个 区 域 边界 上 曲 = 

率 改 变 符号 的 点 满足 这 个 要 求 ， 就 如 图 13-6 所 示 。 图 13-6 一 个 物体 的 边界 ， 其 上 一 些 
这 个 例子 的 推导 最 早 是 由 Shapiro 与 Brady 描 述 的 曲率 改变 符号 的 点 被 标 出 


[13.46]， 他 们 使 用 了 如 下 的 特征 向 量 方法 。 
与 弹簧 加 模板 的 原型 表示 方法 一 样 ， 在 一 堆 特 征 点 集中 找 出 一 个 集 与 某 一 特定 集 最 佳 匹 
配 。 令 dj 表 示 特 征 点 x 与 x 之 间 的 欧 氏 距离 ， 并 构筑 一 个 权重 矩阵 





2 
H=[H,), Hy = exo -区 (13-10) 


EREHE 77 i308. f8 10 a — 7S BY AR 3E 
H = EAE? (13-11) 
其 中 下 是 一 个 矩阵 ， 以 巨 的 特征 向 量 为 其 列 向 量 ， 和 是 一 个 对 角 和 矩阵 ， 其 对 角 元 素 是 妃 的 
特征 值 。 假 定 E 和 A 的 行 与 列 是 经 过 排序 的 ， 从 而 使 得 特征 值 沿 对 角 以 降序 排列 。 把 E 的 每 一 
行 考虑 为 一 个 特征 向 量 ， 用 FF Ros. WA 








UJ 
N 








244 #13 È 


Rita RAR. fie. FAIR UE mA BROE RR. tian EMER, EB men. 
那么 如 果 将 每 个 特征 点 集 看 成 是 独立 的 ， 则 对 所 图 像 有 到 = EAE) HERA H, = EAS. 
由 于 每 幅 图 像 的 特征 点 数目 不 同 ， 和 矩阵 Hi 与 H, 有 不 同 数目 的 特征 值 。 因 此 只 选 最 主要 的 k 个 特 
征 进行 比较 。 

一 个 重要 的 事情 是 ， 进 行 匹 配 的 特征 向 量 的 方向 要 一 致 ， 但 改变 其 符号 并 不 影响 正 交 与 
归 一 性 。 我 们 选择 Ei 为 参考 ， 然 后 将 E, 的 轴 的 朝向 调整 至 这 样 一 种 方向 ， 使 得 两 组 特征 向 量 
对 得 最 齐 ; 可 参考 [13.46] 了解 细节 。 在 将 轴 对 准 以 后 ， 一 个 表征 图 像 1 与 图 像 2 之 间 匹 配 程度 
的 向 量 Z 定 义 为 

Z; =(F - F4) (F, - Fp) (13-12) 

则 最 佳 匹 配 就 可 由 2 的 元 素 表示 ， 这 些 元 素 在 它们 的 行 与 列 中 分 别 是 最 小 的 。 我 们 将 在 下 
一 节 再 介绍 这 个 例子 。 

Sclaroff 与 Pentland[13.44] 采 用 了 男 一 种 弹簧 加 模板 的 表示 方法 : 首先 ， 用 一 种 对 采样 与 
参数 化 误差 鲁 棒 的 方法 计算 整个 形状 的 描述 。 然 后 使 用 整个 形状 的 描述 找到 一 个 有 效 表达 该 
形状 的 坐标 系统 。 将 这 种 做 法 用 到 图 像 与 模型 中 ， 对 确定 作为 基准 的 方向 (cardinal direction) 
是 很 直接 的 。 . 

W, [10.19] 在 计算 光 流 的 问题 中 使 用 松弛 标号 法 来 检测 一 致 性 模板 的 匹配 。 

- 变形 模板 的 概念 可 以 与 图 表达 方式 相 结 合 ， 匹 配 形状 相似 但 又 不 完全 相同 的 物体 (例如 手 
的 x 射线 图 像 )[13.1]。 变 形 模型 的 想法 可 以 看 作 MAP 方 法 的 扩展 ， 可 以 参考 [13.26]， 它 对 此 有 
一 简单 扼要 的 描述 。 与 此 类 似 的 方法 在 自动 目标 识别 (ATR) 中 也 被 应 用 到 目标 眼 踪 中 [13.12]。 


13A.2 人 工 神经 元 网 络 用 于 物体 识别 


我 们 已 经 讨论 过 对 被 观察 的 事物 进行 度量 得 到 一 组 特征 后 ， 模 式 识 别 技术 为 我 们 提供 了 
决策 “ 它 是 什么 ?” ”的 方法 。 开发 分 类 器 有 许多 方法 ， 使 用 人 工 神经 元 网 络 原理 的 方法 是 其 
中 最 为 成 功 的 一 种 方法 。 神 经 元 网 络 以 物体 的 特征 作为 输入 ， 在 其 输出 端 做 决策 。 它 们 是 基 
于 人 们 对 每 个 神经 元 是 如 何 计 算 的 机 理 的 了 解 ， 经 过 数学 抽象 的 原理 工作 的 。 

能 够 执行 匹配 计算 的 神经 元 网 络 有 两 种 类 型 ， 前 馈 (feedforward) 和 递归 (recurrenb 网 络 。 


13A.2.1 前 馈 神 经 元 网 络 

在 前 馈 神 经 元 网 络 中 ， 每 个 计算 单元 (以 后 称 之 为 “神经 元 ”") 有 数量 较 大 的 输入 端 和 单 
个 输出 端 。 尽 管 在 文献 中 已 开发 出 许多 种 神经 . a [uo 
元 模型 ， 但 单个 神经 元 最 常用 的 计算 方式 仍然 


是 y= Swix), 其 中 S$ 是 $ 形 函数 sigmoid )， % > =) - - 





x, BMA, w 是 权重 ， 用 来 修改 到 神经 元 的 各 位 

个 输入 量 的 重要 性 。 图 13-7 显 示 了 一 个 神经 元 . 

的 结构 与 命名 惯例 。 图 13-7 由 单个 神经 元 执行 的 计算 。 每 个 输入 (x) 
几乎 所 有 的 任意 函数 都 可 以 用 图 13-8 所 示 都 乘 以 一 个 权重 w%， 其 结果 加 在 一 起 产生 一 

的 分 层 神经 元 网 络 来 计算 。 神 经 元 网 络 设计 的 个 信号 4， 它 经 过 一 个 类 似 于 5 形 非 线性 函数 

主要 问题 是 确定 各 个 权重 值 ， 使 得 输入 能 得 到 (S) 产生 神经 元 的 输出 > 


适当 的 输出 。 在 前 馈 网 络 中 ， 有 关 模 型 的 信息 是 嵌入 于 权重 值 中 的 ， 当 多 半 以 形状 特征 方式 
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表达 的 图 像 信 息 输入 到 该 网 络 时 ， 如 果 这 些 特征 向 量 与 模型 相 匹配 ， 网 络 就 会 回答 “是 ”。 确 
定 这 些 权 重 值 的 主要 方法 是 通过 解 梯度 下 降 问 题 找 到 这 些 权重 ， 梯 度 下 降 法 多 半 是 通过 减少 
神经 元 网 络 实际 输出 与 理想 输出 之 间 差 异 的 均 方 值 来 实现 。 这 样 一 种 算法 用 所 熟知 的 梯度 下 
降 规则 实现 


E MSE 





wy (t + At) = Wit) — c, z 


y 





^ ae WT 


RU) nux. TA 


单 层 感知 器 
- 是 开 的 或 闭 的 
双 层 


多 层 (通常 为 三 层 ) 





图 13-8 前 馈 神 经 元 网 络 的 类 型 ， 以 及 它们 能 实现 的 决策 域 


使 用 图 13-9 所 示 的 三 层 神经 元 网 络 ， 梯 度 下 降 规则 可 以 很 容易 地 用 导数 的 传递 规则 来 实 
现 。Hussain 和 Kabuka[13.24] 演 示 了 用 神经 元 网 络 进行 字符 识别 的 结果 。 





图 13-9 一 个 有 三 个 输入 端 与 两 个 输出 端的 前 馈 神 经 元 网 络 。 每 个 圆圈 表示 一 个 神经 元 ， 权 
重 没 有 明显 地 表示 ， 而 是 存在 于 连接 中 


13A.2.2 递归 神经 元 网 络 
一 个 递归 神经 元 网 络 (NN) 是 在 运行 时 将 输出 回馈 到 输入 端的 网 络 ， 如 图 13-10 所 示 。 
使 用 先前 用 过 的 相同 表示 ， 在 网 络 处 于 稳 态 时 神经 元 ;的 输出 满足 








ww 
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" s09- Ss =I] (13-13) 


神经 元 的 这 种 性 能 模型 只 是 在 稳 态 时 成 
立 。 这 是 因为 神经 元 的 输出 取决 于 它 的 输入 ， 
而 这 些 输入 值 又 是 〈 它 以 及 别 的 神经 元 的 ) 
输出 ， 它 们 又 取决 于 ……- (Rt AE HE Ue e 3 
代 ， 对 占 下 来 说 是 预言 一 一 L.P.Deutsch) 但 
是 当 事 情 在 变化 中 时 ， 这 种 表示 式 是 极端 不 
合适 的 。 此 时 需要 有 关于 系统 动力 学 的 模型 。 
有 许多 种 模型 可 以 用 ， 读 者 可 以 参考 [13.15， 图 13-10 一 个 有 三 个 神经 元 的 递归 神经 元 网 络 ， 权 





13.20，13. 23] 作 进一步 的 了 解 。 这 里 我 们 只 重 没有 画 在 上 面 ， 但 每 个 神经 元 的 每 个 输 
考虑 一 个 简单 模型 ， 其 中 从 求 和 器 输出 的 变 入 都 有 相应 4 权重 
化 率 与 输入 有 关 ， 并 可 用 一 阶 微分 方程 表示 。 

GO BO Å wS- (13-14) 


A rhy; 与 以 前 一 样 ， 是 神经 元 的 输出 ，w; 是 权重 ， 而 7 是 从 外 部 世界 来 到 每 个 神经 元 的 输入 
(在 图 中 没有 表示 )。 于 是 输出 的 改变 与 当前 的 状态 、 从 所 有 其 他 神经 元 来 的 输入 以 及 外 部 输 
入 成 正比 。 : 

在 运算 过 程 中 ， 一 个 特定 的 输入 送 到 一 个 递归 神经 元 网 络 中 ， 然 后 神经 元 网 络 就 开始 运 
行 。 每 个 神经 元 应 该 收敛 到 一 个 特定 的 状态 。 

霍 普尔 德 曾 描述 过 这 个 模型 [13.23]， 也 有 其 他 人 描述 过 这 个 模型 。 在 Hopfield 的 模型 中 ， 
递归 网 络 是 用 阻 容 运算 放大 器 实现 的 ， 而 变化 常数 由 电容 与 电阻 模型 确定 。 

我 们 暂且 将 〈13-14) 式 放 在 一 边 ， 考 虑 以 下 一 个 欲 使 其 最 小 化 的 目标 函数 


DD (13-15) 

如 果 希 望 找到 使 该 函数 最 小 化 的 各 个 v 的 值 ， 则 需要 求 E 对 各 个 v 值 的 偏 导数 ， 如 此 做 就 得 到 
ED FASO +L (13-16) 

从 该 式 可 以 看 出 E 与 变量 v 的 偏 导数 与 Hopfield 模 型 的 动力 学 模型 具有 相同 的 形式 或 者 可 写成 
= - -% (13-17) 


设想 一 下 式 (13-17) 描述 的 系统 的 稳 态 。 当 该 网 络 的 变化 结束 时 (所 有 随时 间 的 导数 都 为 零 ) 
所 有 能 量 函 数 的 偏 导 数 也 都 为 零 ， 因 此 我 们 得 到 的 是 极 值 。 其 实 式 (13-15) 中 恼人 的 积分 是 
可 以 忽略 不 顾 的 ， 这 一 点 是 很 容易 证 明 的 ， 因 此 一 个 Hopfield 神 经 元 网 络 能 找到 一 组 变量 v, 它 
使 式 (13-15) (没有 积分 项 ) 描述 的 目标 函数 达 最 小 值 。 我 们 通过 一 个 例子 说 明 这 样 一 种 网 
络 在 匹配 中 的 用 途 。 m 

使 用 与 前 一 节 相 同 的 特征 集 ， 边 界 曲率 为 零 的 点 ， 我 们 给 每 个 特征 点 赋予 一 个 局 部 性 度量 ， 
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这 里 用 到 【〈 两 个 ) 相 邻 点 的 向 量 之 间 的 夹 角 ， 如 图 13-11 所 示 。 我 们 将 用 这 个 度量 以 及 一 个 更 加 带 


全 局 性 的 特征 一 特征 点 之 间 的 距离 ， 来 解决 对 应 问题 。 ‘no 
假设 图 像 1 (可 以 把 它 想像 成 模型 ， 如 果 你 希望 这 。 “4 a 

样 做 的 话 ) 有 n 个 特征 点 ， 图 像 2 有 m 个 特征 点 。 我 们 定 

义 一 个 神经 元 矩阵 ， 其 中 有 n 列 与 m 行 。 在 第 ; 行 j 列 的 神 fi R 


经 元 的 值 在 0 与 1 之 间 ， 它 取决 于 第 1 幅 图 像 中 第 i 个 特征 图 13-11 点 ;到 两 个 相 邻 特征 点 向 量 之 间 
点 与 第 2 幅 图 像 的 第 /个 特征 点 之 间 匹配 的 程度 。 的 夹 角 是 该 特征 点 的 一 个 局 部 度量 
匹配 的 过 程 可 以 表示 成 使 下 式 最 小 化 的 问题 


FS own 人 32 cs.) 


其 中 第 1 项 检验 认 与 ji! 之 间 匹 配 的 兼容 性 。 而 后 两 项 包含 在 内 是 促使 匹配 的 唯一 性 (一 幅 
图 像 的 某 个 特征 都 只 能 与 另 一 幅 图 像 的 一 个 特征 匹配 一 一 译 者 注 )。 选 择 这 种 形式 的 函数 是 允 
许 特 征 之 间 可 能 有 遮挡 关系 。 兼 容 系数 是 这 三 项 之 和 


Ciu = ,1(0;,0,) + v, 1T(0,,0,) + wT n,n) (13-19) 
其 中 
1 (la- bl« T) 
= 13-19 
(a,b) E Xd (13-194) 


SOPTABUA; 6, 是 对 特征 点 i 的 局 部 度量 ， 如 图 13-11 所 示 ; 而 r; 是 对 特征 点 之 间 关 系 度量 的 
相似 度 的 度量 。 例 如 ， 如 果 i 与 点 之 间 的 距离 与 £ 与 /点 
之 间 的 距离 相同 ， 则 标号 大 与 凡是 一 致 的 。 

式 (13-18) 经 过 适当 处 理 ， 可 以 使 它 表 示 成 如 式 
(13-15) 的 形式 ， 从 而 可 以 用 神经 元 网 络 加 以 最 小 化 。 
[13. 28，13.$4] 有 更 多 的 细节 。 在 图 13-12 中 显示 的 是 一 支 手 
枪 的 轮廓 ， 其 中 部 分 被 一 锤子 遮挡 。 使 用 这 个 原理 的 神经 
元 网 络 可 以 从 这 幅 图 像 中 鉴别 出 这 两 个 物体 。 


13A.3 图 像 索引 


到 目前 为 止 ， 我 们 讨论 了 在 模型 数据 库 中 搜索 一 个 与 所 观察 到 景物 匹配 程度 最 小 的 图 像 
匹配 技术 ， 但 我 们 并 没有 涉及 “搜索 ”过 程 本 身 。 搜 索 当 然 可 以 采用 试探 所 有 模型 的 办 法 ， 
但 是 太 耗 费时 间 ， 以 致 于 不 可 能 采用 ,尤其 当 模型 数据 库 中 的 模型 数量 极 大 时 更 是 如 此 。 在 
自动 目标 识别 这 类 应 用 中 ， 要 求 搜索 大 数据 库 ， 且 速度 要 快 [13.45]。 因 此 要 求 更 好 的 方法 。 
一 种 替代 的 策略 是 索引 (indexing) ( 有 时 称 为 图 像 散 列 ，image hashing )， 它 在 [9.6] 中 分 析 。 
在 索引 的 方法 中 从 图 像 中 抽取 出 一 组 参数 ， 显 然 这 些 参 数 需要 对 尽 可 能 多 的 图 像 变 换 保持 其 
不 变性 ， 并 且 性 能 要 和 鲁 标 [13.1]。 所 得 到 的 参数 向 量 就 用 作 一 个 查找 表 的 索引 ， 这 个 查找 表 包 
含 查找 模型 的 信息 。 在 查找 表 查 找 的 结果 返回 一 张 候选 模型 的 名 单 ， 这 些 候 选 模型 对 该 参数 
向 量具 有 一 致 性 。 为 了 说 明 它 为 什么 能 有 效 ， 考 虑 以 下 的 算法 。 | 

首先 从 观察 边界 处 的 局 部 区 域 开 始 ， 并 力图 将 局 部 区 域 与 线 、 圆 绝 以 及 最 小 、 最 大 曲率 
等 特征 描述 量 相 匹配 。 假 设 对 未 被 遮挡 的 一 个 物体 的 分 割 是 正确 的 ， 我 们 从 一 幅 边 缘 图 像 开 


图 13-12 一 支 枪 的 影子 轮廓 ， 其 中 有 
部 分 被 锤子 遮挡 


w 
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始 ， 其 中 边缘 并 不 要 求 是 连续 的 。 在 边缘 上 某 点 [xo, yo] 周 围 ， 我 们 用 一 种 采样 策略 9 对 其 邻 域 
进行 采样 ， 这 种 采样 对 图 像 放 缩 上 共有 不 变性 。 对 该 点 与 其 相 邻 两 个 点 生成 所 有 可 能 的 组 合 ， 
并 产生 一 种 与 在 [9.37] 中 描述 相似 的 不 变 参 数 向 量 。 这 个 参数 向 量 用 来 对 局 部 形状 的 数据 库 进 
行 索 引 。 对 每 个 所 选择 的 项 ， 在 表 中 索引 出 相应 的 特征 例证 (feature instance) (例如 是 哪个 
模型 在 图 像 中 体现 的 方位 。 一 一 译 者 注 )， 在 所 有 三 种 特征 ( 指 线 、 圆 弧 及 曲率 等 一 一 译 者 注 ) 
都 已 考虑 之 后 ， 获 得 索引 率 最 高 的 特征 例证 被 选 出 。 

此 时 物体 的 边界 就 可 以 用 一 个 特征 例证 序列 表示 ， 而 索引 方法 可 以 在 高 一 层次 (物体 模型 层 
次 ) 重复 ， 此 时 使 用 一 个 关于 物体 模型 的 查找 表 ， 它 用 特征 例证 的 几何 以 及 是 否 出 现 作 为 索引 。 

还 有 相当 多 的 索引 [13.5，13.32]; 在 {13.48] 中 对 此 有 很 好 的 综述 。 某 些 索引 方法 对 空间 
的 需求 在 [13.25] 中 分 析 。 

随 着 数据 库 变 大 ， 必 须 在 整个 数字 库 的 环境 中 考虑 图 像 索 引 问 题 。 我 们 建议 读者 参考 JEEE 
Transactions on Pattern Analysis and Machine Intelligence (Aug.1996 ) 的 一 个 专集 ， 它 讨论 这 个 问题 。 


13A.4 匹配 几何 不 变量 


我 们 从 简单 地 找到 一 组 不 变 的 数值 开始 ， 这 种 方法 是 要 在 三 维 模型 中 找到 5 个 点 ， 并 从 它 
们 计算 出 某 些 特 性 ， 能 够 以 某 种 不 变量 方式 唯一 表征 这 些 点 。 然 后 在 图 像 中 找 出 5 个 点 并 确定 
它们 与 哪个 模型 最 匹配 。 
在 三 维 模型 中 选择 5 个 点 {X, Xo, Xs. Xu. XX;} ， 其 中 至 少 4 个 点 是 非 共 面 的 。 由 于 5 个 点 不 可 
能 线性 独立 ， 可 将 其 中 之 一 写成 其 余 点 的 线性 组 合 。 选 择 x; 用 这 种 方法 表示 ， 使 用 齐 次 坐标 
(9.1 节 ) 得 
X; = aX, + bX, +cX, + dX, (13-20) 
利用 点 矩阵 的 行列 式 对 刚体 运动 是 不 变 的 这 一 现象 © ， 并 且 将 由 5 个 点 中 之 4 个 构造 的 行 
列 式 ， 并 用 被 弃 用 的 点 的 下 标 作 为 下 标 ， 例 如 
M, =I X, X, X, X, | (13-21) 


TEX; 的 线性 相关 表示 (13-20) 代入 (13-21) 式 中 X; 的 每 个 场合 ， 得 到 
M, =alX, X, X, X, | «bl X, X, X, X, | 


(13-22) 
+c1X, X, X, X, led X, X, X, X,| 
由 于 有 两 列 相同 的 矩阵 的 行列 式 是 零 ， 则 有 
M, =alX, X, X, X, I (13-23) 
由 于 行列 式 中 任 两 列 互 换 只 需 将 行列 式 的 符号 互 换 ， 因 而 又 可 进一步 简化 得 
M, =(~a)1X, X, X, X, le al X, X, X, X, l= (-a)! X, X, X, X, (13-24) 
所 以 有 | 
M, = -aM, ( 13-25) 


O 为 了 避免 因 引入 许多 细节 而 使 索引 算法 的 叙述 过 于 零乱 ， 请 原谅 我 们 省 略 了 某 些 细节 ， 它 们 都 在 参考 文献 
， 的 文章 中 。 
日 。 事 实 上 ， 线 性 形式 的 绝对 不 变量 总 是 行列 式 塞 的 比 [13.19]。 





AR 
与 此 相似 
M, = bM, 
M, =-cM, 
M, = dM, 
由 此 可 以 写成 相应 系数 的 表示 式 
az-M pe c=-M gM 
M; M; M; 5 


在 二 维 情况 ， 这 5 个 点 投影 到 一 组 三 维 向 量 (也 使 用 齐 次 坐标 )， 得 


Xs = ax, + bx, +0x,+dx, 


可 以 用 舍弃 其 中 两 个 索引 的 方式 构造 3 .3 矩阵 ， 并 用 被 舍弃 的 索引 号 表示 


Mm, =| x, x, x; l 
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(13-26) 


(13-27) 


(13-28) 


(13-29) 


此 时 ， 可 以 将 x 从 表示 式 中 去 掉 ， 只 保留 相应 的 索引 号 ， 使 得 表示 式 简 化 ， 因 此 Mis 又 可 


以 写成 
m,-13 4 5i 
与 前 面相 似 ， 可 以 通过 代数 运算 将 行列 式 与 系数 联系 起 来 ， 例 如 
m; =al3 4 11+b13 4 21 
=all 3 41+b12 3 41 


=am,, + bm; 
以 及 
ms = Q11135 一 CMs 


m,-am. dm, 


因此 我 们 得 到 了 用 M; 表示 系数 的 形式 ， 将 这 些 关系 写 到 方程 式 中 ， 就 得 到 


M,m,, + Mmm, - Mm, = 0 
Msmis + Mimss ~ M,m,; = 0 
Mm, + Mm, - Mam, = 0 


(13-30) 


(13-31) 


(13-32) 


(13-33) 


这 些 关 系 对 三 维 与 二 维 运动 都 是 不 变 的， 但 是 一 个 乘法 因子 会 以 同样 的 方式 影响 所 有 的 


M,。 由 于 使 用 比例 可 以 消除 这 种 影响 ， 因 此 定义 三 维 不 变量 为 


p-M p-M pM 
M, M, M, 
以 及 二 维 不 变量 为 
i = Mı Ms ms bs ms 
ms ms ms Mis 


(13-34) 


(13-35) 


X54) BESIUR UAE. AAEM ERR TI, (fidel mi ke EE RE dE SE eH. RR 


A (13-33) 并 将 其 第 一 行 除 以 Ms: 


(13-36) 
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它 又 被 简化 为 
m,*Im,-Im,-0 (13-37) 
同样 又 可 除 以 mis* 得 到 两 个 独立 的 方程 式 
fz + hos -h = 0 (13-38) 
i3 + li, -l =0 


因此 如 果 我 们 有 二 维 不 变量 ， 我 们 对 三 维 不 变量 就 有 两 个 方程 式 。 不 幸 的 是 ， 式 (13-38) 
这 两 个 方程 并 不 确定 这 三 维 不 变量 。 这 两 个 方程 确定 的 仍然 是 三 维 空间 ，7， 的 一 条 空间 直线 。 

如 何 使 用 这 种 做 法 呢 ? 对 一 个 给 定 物 体 的 三 维 模型 ， 以 及 5 个 点 ， 其 中 4 个 是 非 共 面 的 ， 
我 们 可 以 得 到 i、 与 5， 它 表示 在 三 维 空间 中 的 一 个 点 。 为 了 执行 识别 ， 首 先 从 二 维 图 像 中 
抽取 (若干 个 ) 5 个 一 组 的 特征 点 组 ， 并 用 它们 构造 二 维 不 变量 。 每 5 个 点 给 出 在 有、 与 4 空 
间 的 两 个 方程 式 ， 也 就 是 在 三 维 不 变 空 间 中 一 条 直线 。 如 果 一 个 在 二 维 图 像 中 的 5 点 组 合 是 三 
维 中 同一 个 5 点 组 合 的 投影 ， 则 所 得 到 的 直线 会 穿 过 代表 该 模型 的 一 个 点 。 如 果 有 这 些 点 的 其 
他 投影 、 我 们 可 以 得 到 一 条 不 同 的 直线 ， 但 它 仍然 穿 过 这 个 模型 点 。 

将 该 方法 在 实际 图 像 中 实现 ， 会 比 上 述 情 况 略 为 复杂 一 些 ， 因 为 必须 考虑 射影 几何 而 不 
能 假设 是 正 交 投影 。 另 一 个 使 问题 复杂 化 的 因素 是 要 确定 选择 5 点 组 合 的 合适 方式 ， 并 且 要 有 
一 种 方法 对 付 线 “ 几 乎 ”( 即 不 能 准确 ) 穿 过 这 个 点 的 情况 。Weiss 和 Ray[13.52] 讨 论 过 这 些 
问题 。 


13A.5 结论 


13A.5.1 用 哪个 模型 
到 目前 为 止 ， 我 们 已 经 讨论 了 相当 多 种 类 的 物体 表示 方法 ， 当然 这 不 是 在 文献 能 找到 的 
表示 方法 的 全 部 。 其 他 模型 中 包括 变形 模型 的 变种 [13.10,13.11]， 尤其 是 在 距离 图 像 中 使 用 的 
模型 [13.21]。 
请 考虑 图 13-13 所 示 的 情况 : 应 该 将 该 图 形 与 一 个 圆 匹配 呢 ， 还 是 一 个 六 面体 ? 显然 对 这 
个 问题 没有 一 个 简单 的 答案 。 如 果 你 有 与 问题 有 关 的 先 EE 
aR, Han: 你 经 常 讨 论 的 是 圆 形 物体 ， 你 可 能 会 选 
择 圆 形 模 型 ， 它 显然 比 多 面体 要 简单 些 。 最 小 描述 长 度 
(minimum description length MDL) 的 想法 对 此 会 有 帮 
助 。MDL 策 略 宣称 对 一 给 定 图 像 的 最 佳 表 示 ， 可 以 由 “图 13-13 出 一 个 边缘 检测 器 得 到 的 一 组 点 ， 
表示 式 的 编码 及 残 差 的 综合 长 度 最 小 化 确定 。 有 趣 的 是 它 可 能 来 自 一 个 图 或 一 个 多 面体 
可 以 证 明 [13.9，13.30] 一 个 MAP 表 示 式 (最 大 后 验 概 率 ) 
与 MDL 表 示 式 是 等 价 的 ， 此 时 先 验 知识 确实 表示 了 (观察 到 的 ) 信号。 
Schweitzer[13.43] 使 用 MDL 策 略 开 发 计算 光 流 的 算法 ，Lanterman[13.29] 用 它 表征 ATR 应 
用 中 的 红外 图 像 一 一 “如 果 有 几 种 描述 与 所 观察 的 现象 兼容 ， 我 们 选择 消耗 最 少 的 ”[13.29]。 
Rissanen [13.41] 建 议 物体 与 模型 匹配 的 质量 可 以 表示 为 
L(x,0) = -log, P(x18) + L0) | (13-39) 


其 中 x 是 所 观察 的 物体 ，6 是 用 参数 向 量 表示 的 模型 ， 忆 (zl6) 是 给 定 模型 条 件 下 能 得 到 这 些 
度量 的 条 件 概 率 ，L (9) 表 示 这 个 模型 所 需 的 比特 数 ， 则 条 件 概率 的 对 数 是 数据 如 何 匹 配 模型 
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的 一 种 度量 。 我 们 因此 可 以 在 使 用 更 复杂 模型 的 更 精确 匹配 与 使 用 较 简单 模型 的 稍 差 匹 配 之 
iB PULA Ht (13.6). 

毕竟 机 器 视觉 是 不 能 只 靠 一 个 程序 、 一 个 算法 或 一 组 数学 概念 解决 问题 的 。 归 根 结 底 解 
决 问题 的 关键 取决 于 构造 系统 时 ， 能 否 把 一 堆 专门 技术 集中 在 一 起 的 能 力 。 现 在 仍然 无 法 判 
断 如 何 做 到 这 一 点 ， 遗 憾 的 是 只 有 很 少 的 文章 已 承担 起 这 个 艰巨 任务 。 例 如 Grosso 与 Tistarelli 
[13.18] 将 立体 视觉 与 运动 相 结合 。Bilbro 与 Snyder[13.4] 融 合照 明 与 距离 以 改善 距离 成 像 的 质 
量 ，Pankanti 与 Jain[13.38] 将 立体 视觉 、 影 调 与 松弛 标号 融合 。Zhnu 与 Yuille [8.80] 将 MDL 方 法 
中 与 主动 轮廓 (active contour) ， 与 区 域 增长 (region growing) 等 技术 融合 在 一 起 统一 地 处 理 
图 像 分 割 问题 。Gong Kulikowski [13. 16] 使 用 一 个 规划 策略 ， 主 要 用 在 医学 应 用 领域 。 


13A.5.2 匹配 中 的 一 致 性 与 优化 

在 13A.1 与 13A.2 节 所 讨论 的 问题 中 ， 第 一 步 都 是 检测 一 些 相 对 特殊 的 特征 点 。 然 后 算法 
利用 这 些 点 之 间 的 关系 ， 依 靠 一 致 性 来 发 现 最 优 匹配 。 

在 讨论 递归 神经 元 网 络 时 ， 显 示 了 这 种 网 络 能 达到 一 种 稳 态 ， 它 事实 上 是 执行 式 (13-15) 
目标 函数 的 最 小 化 。 


13A.6 术语 
特征 向 量 eigenvector 
前 馈 神 经 网 络 feedforward neural net 
几何 不 变量 geometric invariant 
图 像 索 引 image indexing 
递归 神经 网 络 recurrent neural net 
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第 14 章 统计 模式 识别 


Statistics are used much like a drunk uses a lamppost; for support, not illumination. 

Vin. Cei 
单 讲 统计 模式 识别 这 一 学 科 本 身 ， 可 能 就 需要 好 几 本 书 (实际 情况 也 的 确 如 此 )。 因 此 ， 
这 一 章 的 内 容 没 有 涵盖 统计 模式 识别 问题 的 各 项 细节 。 但 是 ， 学 习 机 器 视觉 需要 了 解 统 计 模 
式 识别 的 相关 知识 ， 这 样 才能 便于 阅读 有 关 文献 ， 并 方便 理解 其 他 机 器 视觉 问题 。 所 以 ， 本 
章 主要 对 统计 方法 进行 简单 介绍 。 如 果 要 对 机 器 视觉 进行 深入 地 研究 ， 只 靠 这 一 章 的 讲解 是 
远 远 不 够 的 ， 应 该 完整 地 学 习 一 门 统计 模式 识别 课程 。 关 于 这 方面 的 教材 ， 推 荐 如 下 几 部 : 
Duda 和 Hart[14.3] 的 原版 教材 ， 包 含 统计 模式 识别 分 类 和 机 器 视觉 两 方面 的 内 容 ， 但 是 在 新 版 
[14.4] 中 主要 限于 分 类 方面 。 更 早 的 还 有 Fukanaga 的 教科 书 [14.6]， 基 中 仍然 包含 大 量 的 有 用 

信息 ， 我 们 还 推荐 [14.11] ， 因 为 它 可 读 性 强 。 


14.1 分 类 器 设计 


回顾 13.2 节 所 讲 的 例子 。 在 那个 例子 中 ， 通 过 计算 佐 子 或 者 手 什 的 样本 均值 ， 利 用 统计 的 
方法 推导 出 它们 的 模型 。 我 们 称 这 些 集合 为 “训练 集 *。 在 13.2 节 中 ， 把 用 特征 向 量 表示 的 未 
知 对 象 与 这 两 个 模型 进行 比较 ， 并 将 未 知 对 象 归 类 为 与 它 非常 相似 的 模型 类 别 ， 其 中 “非常 
相似 ”是 指 未 知 对 象 的 特征 向 量 与 该 模型 之 间 的 欧 几 里 德 距离 非常 小 。 本 章 将 说 明 ， 这 种 
“最 近 均 值 ”决策 规则 实际 上 是 类 别 分 布 为 高 斯 概率 密度 时 最 大 似 然 的 简化 情况 。 本 章 将 进 一 
步 说 明 ， 利 用 其 他 决策 规则 而 不 是 最 近 均 值 ， 分 类 效果 会 更 好 ， 而 且 计 算 效 率 也 更 高 。 

下 面 我 们 开始 讨论 几 种 决策 规则 。 


14.1.1 决策 规则 的 选择 


从 第 1 章 图 1-2 可 以 看 到 ， 对 图 像 进行 度量 ， 而 度量 过 程 的 输出 是 图 像 特 征 。 这 些 特 征 是 
描述 图 像 特 性 的 一 组 数 ， 在 分 类 中 要 用 到 这 些 特征 。 

分 类 器 设计 包括 寻找 一 种 实现 决策 规则 的 方法 。 确 定 决策 规则 的 形式 (form) 和 描述 规 
WIFE KA (parameter) 的 方法 有 若干 种 选择 ， 下 面 简单 介绍 这 些 决策 规则 。 


线性 决策 规则 

图 14-1 显 示 两 种 不 同 工 业 零 件 经 过 很 多 次 度量 后 得 出 来 
的 结果 。 面 积 特征 和 长 度 特征 的 度量 结果 在 图 上 用 符号 来 表 
示 〈( 这 种 类 型 的 图 称 为 “ 散 点 图 ” )。“x” 点 代表 一 类 ， 表 示 
法 兰 ; “o” 点 代表 另 一 类 ， 表 示 垫 圈 。 另 外 ， 图 上 还 画 出 
一 条 线性 决策 分 界 (decision boundary). 。 线 性 决策 规则 是 : 
如 果 度 量 结果 落 在 决策 分 界 的 左边 ， 就 确定 该 未 知 零件 是 法 
兰 ， 否 则 就 是 垫圈 。 线 性 决策 规则 比较 吸引 人 ， 因 为 用 线性 图 14-1 线性 决策 分 界 
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机 (linear machine) 就 可 以 实现 。 这 些 线性 机 可 能 有 很 大 的 并 行 度 ， 因 此 运行 速度 很 快 。 从 
图 中 可 以 看 出 ， 这 两 类 不 是 线性 可 分 〈linearly separable) 的 ， 也 就 是 说 ， 不 存在 一 条 直线 能 
够 把 这 两 类 完全 分 开 。 最 好 的 分 界线 就 是 线性 分 类 器 设计 过 程 的 输出 结果 。 在 14A.2 节 中 ， 我 
们 介绍 支持 向 量 机 ， 它 是 线性 机 的 一 种 新 类 型 。 


14.1.2 最 大 似 然 分 类 器 


6.2 节 介绍 图 像 存储 时 ， 已 经 接触 过 最 大 似 然 (maximum likelihood) 这 一 术语 。 在 此 将 
说 明 该 类 数学 知识 在 分 类 器 设计 中 的 应 用 。 

用 最 大 似 然 方法 进行 分 类 器 设计 时 ， 用 统计 表示 描述 具有 某 个 度量 值 集合 的 样本 属于 某 
个 类 别 的 概率 。 也 就 是 说 ， 已 知 被 测 样 本 的 某 个 度量 值 (向 量 ) x， 要 估计 它 属 于 类 别 w; 的 条 
件 概率 P(w lx)。 对 每 个 w; 都 计算 出 这 样 的 概率 ， 于 是 决策 规则 就 是 ， 如 果 对 于 所 有 的 j 来 说 ， 
ABA P(w, lx)> PQw, lx)， 那 么 该 样本 所 属 的 类 别 就 是 i。 

必须 注意 ， 术 语 “ 最 大 似 然 ”不 一 定 意味 着 是 最 佳 性 能 。 典 型 的 最 大 似 然 算 法 需要 假设 
概率 密度 函数 的 形式 ， 该 假设 也 许 对 于 同一 类 的 许多 数据 点 来 说 是 无 效 的 。 设 计 最 大 似 然 分 
类 器 时 ， Tee CORN a LA BUKNERHBUDEGR, (PANAR), i WERE 
密度 函数 的 参数 〈 例 如 均值 和 方差 ) 。 


14.1.3 分 类 器 学 习 算 法 


训练 集 是 从 每 一 类 中 选择 出 来 的 样本 集 ， 用 它们 统计 地 描述 这 些 类 别 。 所 使 用 的 确定 模 
式 分 类 器 参数 的 方法 ， 与 我 们 手头 上 是 否 有 这 样 的 训练 集 有 关 。 
监督 学 习 

如 果 每 个 类 别 都 有 相应 的 训练 集 ， 并 且 可 以 从 这 些 训练 集中 推导 出 类 别 的 统计 特征 表示 ， 
那么 这 个 过 程 便 称 为 “监督 学 习 ”。 监 督 (supervised) 意味 着 训练 集中 每 个 数据 点 都 根据 所 
属 类 别 进行 了 独立 标记 。 每 类 的 统计 特征 可 以 是 它 的 均值 、 方 差 或 其 他 统计 度量 ， 也 可 用 其 
他 参数 来 表示 。 图 14-1 显 示 监 督 采样 的 数据 分 布 情况 ， 其 中 “x” 点 属于 一 类 ,而 “o” 点 属 
于 另 一 类 。 前 面 13.2 节 中 区 分 斧子 和 手 允 的 例子 ， 就 是 一 个 监督 学 习 问题 ， 因 为 前 提 条 件 是 
已 经 得 到 两 个 类 别 的 训练 集 。 
无 监督 学 习 

图 14-2 表 示 无 监督 学 习 过 程 可 能 出 现 的 结果 。 在 这 幅 图 中 ， 没 有 对 样本 进行 类 别 标记 ， 
但 从 图 中 可 以 很 明显 地 看 到 两 个 不 同 的 有 类 (cluster) 。 举 个 例子 ， 在 一 块 麦 地 的 卫星 多 谱 图 
像 上 ， 如 果 种 植 着 两 种 不 同类 型 的 小 麦 ， 统 计时 就 会 出 现 两 个 聚 类 。 从 这 个 例子 看 ， 聚 类 过 
程 似乎 非常 简单 ， 只 需 看 一 眼 ， 就 会 看 到 两 个 明显 的 聚 类 。 但 是 一 定 要 记 住 ， 并 不 是 所 有 的 
度量 向 量 都 是 二 维 的 ， 对 于 多 维 数据 ， 人 们 处 理 起 来 就 非常 困难 。 而 无 监督 学 习 或 者 聚 类 算 
法 能 够 自动 识别 出 这 两 个 《或 多 个 ) ROS, HEREA (HEMELE) 最 接近 的 聚 类 联 
系 起 来 。 

随 着 讨论 的 深入 ， 你 会 学 会 如 何 确定 为 了 实现 分 类 算法 所 需 的 度量 值 。 聚 类 算法 在 其 他 
机 器 视觉 算法 中 也 同样 有 用 ， 例 如 确定 Hough 变 换 累加 数组 中 的 峰值 位 置 。 这 在 第 15 章 中 会 
进行 更 详细 的 讨论 。 
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图 14-2 无 监督 学 习 ， 只 有 一 个 样本 度量 集 ， 但 这 些 数据 呈现 出 自然 京 类 现象 


14.2 贝 叶 斯 规则 和 最 大 似 然 分 类 器 


本 节 根 据 训练 集 统计 特性 的 有 关 假 设 进行 分 类 器 设计 。 如 果 这 些 假设 对 于 所 用 训练 集 来 说 
是 有 效 的 ， 那 么 分 类 器 的 分 类 性 能 将 是 最 佳 的 。 我 们 也 会 研究 分 类 器 的 性 能 ， 包 括 错 误 率 等 。 

细心 的 读者 会 注意 到 ， 这 里 对 统计 学 概念 的 描述 和 第 6 章 中 所 讲 的 非常 类 似 。 这 种 类 似 不 
仅 正确 而 且 也 是 预先 安排 的 。 在 第 6 章 中 ， 用 统计 方法 寻找 使 某 种 特性 最 小 化 的 一 幅 图 像 。 而 
在 本 章 中 ， 寻 找 一 种 决策 ， 决 定 一 个 样本 到 底 属 于 哪个 类 别 。 


14.2.1 贝 叶 斯 规则 


定义 Plwi ) 为 类 别 w 发 生 的 先 验 概率 〈Priori probability )， 也 就 是 说 ， 在 没有 进行 任何 度 
量 之 前 w; 发 生 的 概率 。 举 例 来 说 ， 有 一 个 制造 法 兰 和 垫圈 的 工厂 ,生产 的 法 兰 和 垫圈 的 比例 
是 9 : 1。 法 兰 和 垫圈 以 随机 的 顺序 从 流水 线 上 下 来 。 根 据 工厂 生产 的 法 兰 数 量 是 垫圈 的 九 倍 
这 一 先 验 知 识 ， 我 们 知道 无 论 何 时 看 流水 线 ， 看 到 法 兰 的 几率 都 要 远 远大 于 看 到 垫圈 的 几率 。 
因此 法 兰 的 先 验 概率 是 0.9， 而 垫圈 的 先 验 概率 是 0.1。 

用 PCxlw; ) 表 示 属 于 类 别 w; 的 样本 zx 出 现 的 条 件 概率 密度 。 对 于 某 个 类 别 w ，pGxzhw; ) 应 被 看 
成 是 x 的 函数 。 假 设 有 一 个 生产 逢 子 和 手 移 的 工厂 ， 我 们 想 找 出 如 图 14-3 所 示 的 答 子 和 手 答 长 
度 的 概率 密度 。 从 图 中 可 以 看 到 ， 斧 的 可 能 长 度 是 30 英 寸 ， 而 手 稳 的 可 能 长 度 是 12 英 寸 。 当 
R, ETET. FEIRER XH. 
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图 14-3 对 两 类 对 象 的 相同 度量 会 产生 不 同 的 均值 。 但 由 于 存在 度量 噪声 或 者 
实际 偏差 ， 这 些 度量 值 会 发 生 重生 
- 概率 密度 函数 可 以 用 好 几 种 方法 表示 。 一 种 方法 是 ， 对 于 变量 的 所 有 可 能 取 值 ， 统 计 每 
个 值 发 生 的 次 数 ， 制 成 简单 的 表格 ， 上 例 中 的 变量 就 是 长 度 。 这 种 表格 被 称 作 变 量 的 直方 图 


t2 











258 £14 * 





(histogram )。 经 过 适当 的 规范 化 处 理 ， 直 方 图 就 可 用 来 表示 概率 密度 函数 ， 当 然 要 求 变量 只 
有 有 限 种 可 能 的 取 值 。 也 可 以 用 参数 化 解析 函数 (如 高 斯 函数 ) 表示 概率 密度 。 

最 后 ，P(w; kx) 定义 为 后 验 条 件 概率 ， 它 表示 已 知 度量 x* 的 条 件 下 ， 被 测 样本 属于 w 的 条 
件 概率 。P(w, Ix) 就 是 我 们 所 要 的 ， 我 们 用 它 作 为 决策 规则 ， 或 者 更 确切 地 说 ， 作 为 判别 函数 
(discrimination function)。 决 策 规则 描述 如 下 : 对 于 未 知 样本 的 度量 x， 计 算 每 个 类 别 的 
P(w, lx)。 也 就 是 对 每 一 个 可 能 的 i 值 ， 计 算 其 P(w; lx)。 如 果 对 于 所 有 的 ji，P(w; ABEP, 
lr) 大 ， 那 么 该 未 知 样本 应 归于 i 类 。 基 于 Pw; lx) 进 行 分 类 决策 时 ， 用 到 了 最 大 似 然 分 类 器 。 

根据 贝 叶 斯 规则 ， 所 定义 的 这 三 个 函数 的 关系 为 : 


Pow, |x) = PE Two Pon) (14-1) 
Something 
Something = p(x) = 2 P(xlw,)P(w,) (14-2) 
+ 


在 式 (14-1) 中 ， 用 “something” 表 示 条 件 概率 密度 中 的 分 母 。 用 “something” 主 要 是 提醒 
读者 注意 这 样 的 事实 : 这 个 数值 表示 该 x 值 发 生 的 概率 密度 与 观测 类 别 无 关 。 既 然 这 个 数值 与 
类 别 无 关 ， 那 么 它 对 于 所 有 类 别 都 是 相同 的 ， 所 以 在 判定 类 别 时 它 不 能 提供 任何 帮助 。 它 只 
是 一 个 规范 化 常量 ， 用 来 保证 数值 P(w; lz) 具 有 和 希望 的 概率 特性 。P(w; lx) 的 值 应 介 于 0 和 1 之 间 ， 
并 且 对 所 有 类 别 P(w Ix) 之 和 为 1 (被 观测 样本 至 少 属于 所 考虑 类 别 中 的 某 一 类 )。 

从 某 种 意义 上 说 ， 式 (14-1) 解决 了 模式 识别 问题 。 它 告诉 我 们 在 已 知 等 式 右边 每 一 项 
的 前 提 下 如 何 去 做 决策 。 下 一 节 介 绍 如 何 确定 式 中 的 每 一 项 。 


14.2.2 参数 模式 分 类 器 


上 一 节 内 容 表 明 ， 如 果 具 备 以 下 两 方面 的 知识 就 可 以 利用 最 大 似 然 分 类 器 进行 决策 : 所 
考虑 类 别 的 先 验 概率 ， 以 及 每 个 类 别 的 条 件 概率 密度 。 到 此 为 止 ， 我 们 还 没有 讨论 采用 哪 种 
形式 的 概率 密度 函数 。 在 图 14-3 中 ， 密 度 函 数 采 用 大 家 熟悉 的 “ 钟 形 曲 线 ” ， 这 种 形状 的 曲线 
可 用 数据 表 或 者 解析 函数 来 描述 ， 对 于 标量 值 >?， 钟 形 曲线 解析 函数 具有 如 下 形式 : 


o l lx _ 
| A5 ) | (14-3) 
其 中 p00) 是 众所周知 的 一 元 高 斯 (规范 化 ) 密度 函数 ，“ 一 元 ”表示 x 是 一 个 标量 ， 并 且 是 一 个 
单 变量 。 均 值 w 和 标准 差 o 是 参数 向 量 中 的 元 素 。 


Hi 
0, - # (14-4) 


I 





这 两 个 数 可 以 完全 确定 高 斯 密度 函数 下 属于 类 别 的 变量 x 的 条 件 概 率 密度 。 
如 果 度 量 不 是 单 变量 ,而 是 有 多 个 ， 那 么 x 就 是 一 个 向 量 ， 并 且 p(xl w ) 的 形式 为 多 元 高 


p(xlw;) = exp[-(1/2)(x - 1) K; (x - u)] (14-5) 


1 
Qn)!" IK, p? 


EA (14-5) 中 ，d 是 向 量 x 的 维 数 ，L 是 表示 随机 度量 向 量 平 均值 的 均值 向 量 ，K, 是 d x d 的 
协 方差 矩阵 。 
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在 一 元 高 斯 密度 函数 情况 下 ， 用 两 个 数值 来 表示 度量 值 的 条 件 概率 密度 。 在 多 元 条 件 下 ， 
用 d 维 向 量 和 a x d 的 矩阵 来 表示 。 有 了 这 些 参 数 ， 把 它们 代入 式 (14-5) 中 ， 然 后 再 代入 式 
(14-1) 中 ， 便 可 以 算出 未 知 目标 最 有 可 能 属于 哪 一 类 。 不 幸 的 是 ， 在 多 数 情况 下 ， 均 值 和 协 
方差 并 没有 给 定 ， 需 要 根据 训练 集 估计 。 

对 式 (14-5) 中 的 右边 取 对 数 ， 就 可 以 去 掉 指数 。 因 为 对 数 函 数 是 单调 的 ， 就 可 以 推导 
出 一 种 参数 表示 ， 包 括 均值 向 量 x， 以 及 类 别 i 的 统计 值 u 和 占 。 求 该 表示 的 极 大 值 ， 与 求 原始 
概率 的 极 大 值 等 价 。 这 时 ， 分 类 问题 就 变 得 非常 简单 : 只 是 把 x 代入 具有 不 同 均值 和 协 方差 的 
每 个 公式 中 。 如 果 有 c 个 类 别 ， 就 能 得 到 c 个 不 同 的 函数 ， 这 些 函 数 称 为 判别 函数 。 所 有 的 判 
别 函 数 都 具有 相同 的 形式 ， 但 有 着 不 一 样 的 参数 。 最 大 判别 函数 所 对 应 的 类 别 就 确定 为 x 所 属 
的 类 别 。 


14.2.3 概率 密度 估计 


因为 随机 变量 的 实际 分 布 密 度 经 常 具有 高 斯 ( 正 态 ) 函数 的 形式 ， 而 且 高 斯 函数 使 用 起 
来 也 非常 方便 ， 所 以 我 们 常常 用 高 斯 函数 描述 分 布 密度 ， 对 它 特殊 对 待 。 

要 用 监督 学 习 方 法 设计 模式 分 类 器 ， 需 要 先 根据 样本 训练 集 估计 密度 参数 。 参 数 集 用 向 
HORM. 
一 元 高 斯 情况 

假设 用 2 表示 六 个 元 素 的 集合 ， 其 中 的 每 个 元 素 表 示 对 属于 类 别 ; 的 一 个 样本 的 某 项 度量 
值 。 由 于 在 此 只 考虑 一 元 情况 ，X; 的 元 素 是 标量 。 下 一 小 节 中 将 讨论 向 量 值 元 素 ， 以 及 多 元 
密度 情况 。 

RX, 中 的 样本 ， 除 了 类 别 i 之 外 ， 没 有 给 出 任何 有 关 其 他 类 别 的 参数 的 信息 。 这 样 就 可 
以 对 每 个 类 别 进行 单独 分 析 。 

假定 样本 是 相互 独立 的 ， 整 个 集合 X, 产生 的 概率 由 下 式 确定 : 


nj 
p(X,) = |] ^e» (14-6) 


由 于 这 个 概率 本 质 上 依赖 于 参数 8,， 为 了 更 清楚 地 表示 这 种 依赖 关系 ， 把 式 (14-6) 重 写 如 
下 : 

p(X; i82 - [Tos 18;) (14-7) 
从 而 6 的 最 大 似 然 估计 定义 为 :使 p(X; 10, ) 取 最 大 值 的 6 值 。 式 (14-7) 描述 了 任何 特定 训练 


集 发 生 的 可 能 性 ， 其 中 概率 分 布 通过 参数 向 量 6 来 描述 。 因 为 采用 的 是 高 斯 密度 函数 ， 将 式 
(14-7) 改写 为 : 





^i o» 
AX,10)=] | = op (14-8) 


可 以 看 到 一 个 重要 的 现象 :使 P(X; 16  ) 最 大 化 的 6 值 同样 也 使 得 In[p(X; 10, )] 达 到 最 大 值 。 这 一 
点 毫 无 疑问 ， 因 为 自然 对 数 函 数 本 身 是 单调 上 升 函 数 。 因 此 可 以 选择 寻找 使 概率 密度 或 者 使 
其 对 数 最 大 化 的 参数 向 量 9 。 可 以 看 出 ， 对 数 形式 用 起 来 非常 方便 。 对 等 式 右边 取 对 数 可 得 
如 下 形式 : 











w 


260 PILE 


2 
EMEN TP 14-9 
In(p(X, 1 6;)) «| A) S o, ) | | 


14.2.4 均值 估计 


用 a 表示 4 的 估计 值 。 为 了 找 出 使 式 (14-9) ARKH, AAW HR SHILA 
等 于 0。 





| Şah -0 (14-10) 
上 式 可 以 简化 为 : 
S-Di =o (00 (4H) 
it, -二 Xe (14-12) 


hi, 称 为 样本 均值 ， 并 且 样本 均值 等 于 平均 值 ， 这 也 符合 直观 情况 。 
14.2.5 方差 估计 


推导 过 程 与 前 面 一 样 ， 但 是 这 次 把 均值 和 方差 作为 未 知 量 。 在 下 文中 ， 为 了 简化 符号 表 
示 ， 不 肯 写 表示 类 别 的 下 标 i。 先 考虑 一 元 情况 ， 然 后 再 考虑 二 维 参数 向 量 0， 


u 
| -| (14-13) 
简化 式 (14-9)， 则 概率 的 对 数 形式 为 : 
L=-¥ n(V2m)- Y no - y (248) (14-14) 
Al FA OL/du=0, By 
Y ore i-o B (14-15) 
利用 97/ao=0， 可 得 
n 1 n (x, - y 7 
àv» 20 | (14-16) 


X (14-15) 两 边 同 乘 以 6? ， 则 可 简化 为 : 


ys D (14-17) 


hn (14-18) 
nt 


以 及 和 前 面 一 样 的 结果 : 
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同样 ， 对 式 (14-16) 进行 简化 ， 可 得 ; 


n 1 < ^ 
- » -üY 14-19 
ô ô? 4 (x, BL) ( . ) 
从 而 得 出 
^2 1 e 5f 2 u 
o "i Xe i) (14-20) 


可 以 看 出 ， 正 态 分 布 密度 函数 的 最 佳 参数 估计 就 是 我 们 熟悉 的 样本 均值 和 样本 方差。 


多 元 高 斯 密度 参数 
对 于 多 元 规范 高 斯 密度 函数 的 参数 向 量 ， 推 导 过 程 与 前 一 小 节 类 似 ， 可 以 得 到 这 些 参数 
的 最 大 似 然 估计 为 : 


m un (14-21) 
n; & 


ý ^ ^ 
K= n > Gr 7 Hy Xn A (14-22) 
i faf 


对 于 多 元 情况 得 到 的 结果 必然 与 一 元 情况 类 似 ， 即 高 斯 分 布 的 均值 和 方差 ， 在 最 大 似 然 
意义 上 的 最 佳 估计 就 是 样本 均值 和 样本 ( 协 ) 方差 。 

现在 看 看 在 这 一 章 中 我 们 要 记 住 些 什么 ? 为 了 求 出 一 组 参数 的 最 大 似 然 估计 ， 需 要 已 知 
一 个 训练 集 ， 假 设 集 合 中 的 元 素 是 相互 独立 的 (如 果 可 以 的 话 )， 并 且 把 整个 训练 集 发 生 的 概 
率 写 成 乘积 。 两 边 取 对 数 并 求 导 ， 然 后 让 它 等 于 0， 就 生成 联 立 方程 。 求 解 这 些 方程 后 ， 就 得 
到 了 参数 的 最 佳 估计 。 这 个 方法 不 光 是 对 高 斯 分 布 ， 对 其 他 任意 的 概率 分 布 都 是 可 行 的 。 但 
在 某 些 情况 下 ， 联 立方 程 的 求解 过 程 可 能 会 十 分 复杂 。 

最 后 ， 除 了 最 大 似 然 方法 外 ， 还 有 另外 一 些 方法 也 可 以 求 得 参数 。 由 于 篇 幅 和 时 间 的 限 
制 ， 在 此 我 们 就 不 讨论 那么 多 了 。 


14.2.6 似 然 比 


我 们 希望 做 出 使 正确 可 能 性 最 大 的 决策 。 为 此 ， 选 择 使 后 验 概 率 达到 最 大 的 类 别 ， 这 个 
概率 也 就 是 在 已 知 样本 度量 值 的 情况 下 做 出 正确 决策 的 概率 。 

也 就 是 说 ， 选 择 ;使 得 P(w lo) 达到 最 大 。 为 了 做 到 这 一 点 ， 回 想 贝 叶 斯 规则 ， 对 于 类 别 1， 
我 们 有 : 
P(x w,)Pw,) 

p(x) 
如 上 所 述 ， 无 论 x 属 于 类 别 1 还 是 类 别 2，p(x) 都 是 一 样 的 。 由 于 分 母 不 受 分 类 决策 的 影响 ， 进 
行 决策 时 就 可 以 将 其 忽略 。 

在 只 有 两 类 的 情况 下 ， 如 果 P(wilx)> P(wslx)， 就 选择 类 别 1。 代 入 贝 叶 斯 规则 ， 如 果 下 式 
成 立 就 选择 类 别 1。 


P(w, |x) = (14-23) 


p(x Vw, )PQu) > p(x bw; )PQw,;) (14-24) 
也 就 是 
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Plwy, Poe) (14-25) 
p(xlw,) P(w,) 
公式 左边 的 表达 式 就 称 为 似 然 比 (likelihood ratio). 3& (14-25) 中 包含 的 关系 ， 反 映 了 似 然 
比 和 先 验 概率 之 间 的 真 假 关 系 。 如 果 它 是 错误 的 ， 我 们 就 选择 类 别 2。 注 意 这 种 形式 的 决策 ， 
是 根据 使 正确 决策 的 概率 最 大 化 的 原则 ， 利 用 了 类 别 的 度量 知识 和 先 验 概率 知识 推导 得 到 的 。 
我 们 也 可 以 用 其 他 指标 ， 例 如 ， 可 以 选择 用 条 件 风 险 最 小 化 替代 概率 最 大 化 。 


14.3 决策 区 间 和 错误 概率 


任何 决策 规则 的 结果 都 是 将 特征 空间 分 成 c 个 决策 空间 &1, Q5, …, Q。.。 假 设 我 们 定义 了 一 
组 判别 函数 g; (x)。 如 果 对 所 有 的 j 卫 i， 都 有 8g; (x)>g; (x), 那么 zk Q; HLA XIW. ^49, 与 
8; 相 邻 时 ， 决 策 分 界 方程 为 8; 00-72; (x)。 在 只 有 两 类 的 情况 下 ， 可 以 算出 决策 区 间 上 的 错误 
概率 为 : 

P(error) = P(x €Q,,w,) * P(x EQ, ,w,) (14-26) 
也 就 是 说 ， 当 x 实际 属于 w, (eR ER IQ, Rx SE Tw, 但 是 落 在 区 间 Q, 中 时 ， 就 会 
发 生 错误 。 由 于 这 些 事件 不 可 能 同时 为 真 ， 则 有 
P(error) = P(x EQ, |w,)P(w,) + P(x EQ, |w,)P(w,) 
= f bx Iw) Pv dx + f px lw, )POw, )dx (14-27) 
2, $i 


我 们 也 用 P(errorlw,) 表 示 w; 为 真实 状态 时 做 出 错误 决策 的 概率 。 图 14-4 显 示 两 类 别 的 后 验 概率 
密度 、 决 策 分 解 的 推导 过 程 以 及 错误 概率 。 
总 的 来 说 ， 如 果 p(xlw1)P(w1)> p(xlw2)P(ws)， 就 应 该 做 出 x 属于 区 间 Q, 的 决策 ， 这 样 就 使 
较 小 的 项 对 误差 积分 有 贡献 。 这 正好 与 贝 叶 斯 决策 规则 相符 合 。 







p(xlw,)POw,) p(xlw3)P(w3) 


可 用 分 界线 左 
移 加 以 去 除 


few Pom) dx 
A 











图 14-4 两 类 别 高 斯 形式 的 后 验 概率 密度 函数 、 决 策 分 界 以 及 错误 概率 
在 多 类 别 情况 下 ， 因 为 计算 错误 的 项 的 项 数 要 比 正确 的 项 多 ， 所 以 计算 正确 的 概率 更 加 
简单 。 
P(correct) = > P(x EQ,,w,) 


. " (14-28) 
- b p(x EQ, 1 w,)P(w,) =) fre lw, )P(w, dx 
i= i= Q; 
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不 管 特征 空间 如 何 划 分 ， 这 个 结果 都 是 有 效 的 。 贝 叶 斯 分 类 器 通过 选择 使 积分 最 大 的 区 间 ， 
而 使 这 个 概率 最 大 化 。 


14.4 条 件 风险 


设 W= (wi, wwo 是 可 能 类 别 的 有 限 集合 ， 且 4= (0, cz，…, ao} 是 可 能 的 决策 集合 。 
如 果 样 本 落 在 类 别 w 中 ， 就 会 发 生 决 策 w。 一 般 地 ， 如 果 决 策 不 正确 就 会 带 来 一 些 损失 。 先 
假设 我 们 有 某 种 方法 定量 描述 这 些 损 失 。 也 就 是 说 ， 可 以 用 Cv 表示 当 样 本 实际 属于 类 别 w; 但 
决策 为 a 所 带 来 的 损失 。 
要 继续 这 一 节 的 学 习 ， 需 要 复习 一 下 关于 随机 变量 的 期 望 值 的 定义 。 你 应 该 已 经 知道 这 
个 定义 ， 只 需要 想 一 想 。 假 设 随 机 变量 x 可 以 有 四 个 不 同 的 取 值 0、1、2 和 3。 如 果 我 们 知道 这 
些 取 值 的 概率 ,假设 它们 是 
p(x=0)=0, p(x=1)=0, p(x=2)=1.0, p(x=3)=0 
你 希望 观察 到 的 x 值 是 什么 呢 ? 很 明显 对 吧 ? 当然 总 是 看 到 x=2。 现 在 看 另 一 种 稍 复 杂 的 
情况 ， 
p(x=0)=0, p(x=1)=0, p(x=2)=0.5, p(x=3)=0.5 
x 的 期 望 值 是 2.5， 你 同意 吗 ? 也 就 是 说 ， 在 一 半 的 时 间 里 x=2， 而 在 另 一 半 时 间 里 x=3。 
现在 来 总 结 期 望 值 的 概念 。 假 设 随 机 变量 有 很 多 可 能 的 取 值 ， 每 个 取 值 都 对 应 着 一 个 概 
率 。 如 果 可 能 的 取 值 数目 是 有 限 的 ， 那 么 期 望 值 具有 如 下 求 和 的 形式 。 
<X>= * xP(x) (14-29) 
更 一 般 的 情况 是 ， 如 果 x 是 连续 的 ， 可 以 用 密度 函数 来 代替 概率 ， 然 后 将 加 波 变 成 积分 。 
假设 我 们 观测 到 zx 并 打算 采取 决策 w。 如 果实 际 状态 是 w， 将 会 产生 损失 Cv。 因 为 Pow lx) 
Aw, 为 真 的 概率 ， 与 相关 的 期 望 损 失 是 : 


5 - Y C, Por 1x) (14-30) 
e 


期 望 损失 称 为 风险 (risk)。 我 们 将 r; 表示 为 r(a, lx)， 这 样 可 以 更 清楚 的 表示 这 是 一 个 条 件 风 
险 。 

我 们 希望 通过 选择 最 佳 w 使 得 总 风险 达到 最 小 ， 将 总 风险 表示 为 r。 函 数 a(x) 就 是 一 个 决 
策 规则 ， 它 可 以 告诉 我 们 采用 什么 决策 使 r 最 小 化 。 

对 于 每 一 个 x 来 说 ,假设 决策 函数 a(x) 的 值 分 别 为 1, 05, …, or。 这 样 ， 总 风险 便 与 决策 规 
则 联系 起 来 。 

Bir; Sr Co, lx) de AR eb DES 总 风险 为 

r= f r(a(x) |x) p(x)dx (14-31) 


对 于 x 的 每 一 个 值 ， 如 果 我 们 选择 a(x) 使 得 r(a(x)lx) 尽 可 能 的 小 ， 那 么 总 风险 就 最 小 。 为 了 使 
总 风险 最小， 计算 最 小 的 ”> 及 相应 的 决策 w。 所 得 到 的 总 风险 就 称 为 贝 叶 斯 风险 。 


考虑 风险 的 似 然 比 
这 里 详细 介绍 两 类 情况 的 推导 过 程 。 如 果 你 弄 明 白 了 两 类 情况 ， 多 类 情况 的 推导 过 程 就 
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变 得 简单 了 了。 当然， 要 记 住 ， 似 然 比 只 适应 于 两 类 情况 。 
对 于 两 类 情况 ， 让 我 们 更 详细 地 看 看 前 面 最 小 风险 准则 的 推导 过 程 。 
如 果 只 有 两 类 ， 就 有 四 种 概率 : 两 种 对 应 正确 的 决策 ， 另 外 两 种 对 应 错误 的 决策 。 因 此 
总 风险 是 : 
r= f Ci Pos | x)dx 


* JOP: l x)d. 
(14-32) 
+ f Cy P(w, | x)d: 
£ 


+ fes, !x)d 


上 式 也 就 是 ，x 属 于 类 别 1， 并 处 在 决策 规则 判定 zx 属于 类 别 1 的 区 间 上 ， 积 分 计算 得 到 的 
风险 ， 加 上 在 决策 规则 认为 应 属 类 别 1 的 x 区 间 上 ，x 属 于 类 别 2 积分 计算 得 到 的 风险 ， 再 加 上 
在 决策 规则 认为 应 属 类 别 2 的 x 区 间 上 ，x 属 于 类 别 1 积分 计算 得 到 的 风险 ， 再 加 上 在 决策 规则 
认为 应 属 类 别 2 的 x 区 间 上 ，x 属 于 类 别 2 积分 计算 得 到 的 风险 。 

对 上 式 整 理 后 得 到 : 


r= ffe. Pos |x) + Ca P(w, | x)dx 
£t 


(14-33) 
+ flCuPO, 1 x)+C,,P(w, | x)]d 


由 于 任意 密度 函数 ， 如 g， 在 区 间 Q2 上 的 积分 ， 可 以 改写 为 1 减 去 g 在 区 间 Q1 上 的 积分 ， 因 此 所 
有 积分 都 可 以 在 区 间 @, 上 进行 ， 于 是 得 到 : 
r = Ca f Pow; 3oodx + C, f P(w, | x)dx 
uf «f 2 


(14-34) 
*1- C, {Pow l)dx +1- Cy f Pw, lx)dx 
Qı [n 


整理 后 得 出 : 
1225 fca - Cj )P(w Ex) + (C, — Cy )P(w, | x)dx (14-35) 


我 们 的 目的 是 让 r 最 小 ( 记 住 ， 这 是 全 部 四 个 决策 所 带 来 的 风险 ) ， 也 就 是 说 ， 决策 规则 确实 
决定 了 决策 区 间 。 对 于 这 种 情况 ， 因 为 只 有 两 个 决策 区 间 ， 任 何 时 候 不 是 类 别 1 就 是 类 别 2， 
所 以 我 们 要 做 的 就 是 确定 区 间 Q1。 为 了 做 到 这 一 点 ， 首 先 需 要 做 一 个 假设 。 假 设 做 正确 决策 
代价 总 是 比 做 错误 决策 的 代价 小 ， 那 么 (Ci - 04) <0， 等 等 。 
如 何 选择 积分 的 上 下 限 而 使 积分 尽量 小 昵 ? ( 记 住 ， 确 定 积分 上 下 限 其 实 就 是 确定 类 别 1 
的 区 间 分 界线 。) 简单 的 方法 是 ， 选 择 使 被 积 函数 处 处 为 负 的 决策 区 间 。 这 样 做 就 产生 了 选择 
区 间 1 所 需 的 条 件 ， 即 选择 8 使 下 式 成 立 : 
(€, - GPW 1x) + (€, - Cy) P(w, 1x) «0 (14-36) 
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用 条 件 密度 和 先 验 概 率 的 乘积 代替 后 验 概率 ， 可 以 得 到 : 


(€, ~ Cy) p(xlw,)PQw,) < (C, - C) p(x 1 w,)P(w;) (14-37) 
经 过 适当 的 整理 ， 可 以 形成 如 下 决策 规则 。 如 果 下 式 成 立 就 选择 类 别 1， 否 则 就 选择 类 别 2。 
p(xlw) > (C; - Cy) Pw) (14-38) 


p(xlw,) (C, -C,,)POw,) 


上 述 表 达 式 称 为 “ 似 然 比 检验 ”。 
考虑 对 称 损失 函数 : 


c ii 
| inj (14-39) 
这 就 是 说 ， 所 有 的 错误 代价 都 是 一 样 的 ， 并 且 如 果 决 策 正确 的 话 就 不 付出 代价 。 现 在 重 写 出 
条 件 风 险 ， 做 出 决策 的 代价 是 


r= Ñ CP, l)e Y Pow -1- Por lo) (14-40) 


这 样 ， 为 了 使 平均 错误 概率 最 小 ， 我 们 选择 了 使 后 验 概 率 P(w; lx) 最 大 的 i。 也 就 是 说 ， 为 了 使 
代价 最 小 ， 如 果 对 于 所 有 的 i*j， 都 有 PCw Ix)>P(w; lz)， 则 确定 是 w， 在 简单 的 最 大 似 然 分 类 
器 设计 时 我 们 已 经 看 到 了 这 一 点 。 因此 可 以 看 出 ， 最 大 似 然 分 类 器 结合 对 称 代价 函数 使 贝 叶 
斯 风险 最 小 。 


14.5 二 次 函数 分 类 器 


考虑 两 类 情况 下 一 般 的 多 元 高 斯 分 类 器 。 像 作业 14.1 那 样 取 对 数 ， 可 推出 基于 似 然 比 的 决 
策 规则 。 如 果 下 式 成 立 ， 就 选择 类 别 1， 否 则 选择 类 别 2。 
méla- un). Kj! (x-u)-(x- m)" K; I(x- H5) < Threshold (14-41) 
| - 2213] £093X€5 - C2) 
其 中 Threshold = ?| PwC a} 
如 果 定 义 
A= Kr'— K;',b = XK;'u, - Kin) 


(14-42) 
c= u Kun -u; Ka'm nel x 
K, 


就 可 以 把 式 (14-41) 的 左边 用 下 式 表 示 
gx)s x Ax - b'x ec (14-43) 


则 决策 规则 变 成 :如果 g(x)<T， 则 选择 类 别 1。 从 这 个 公式 可 以 很 清楚 地 看 到 ， 高 斯 参数 分 类 
器 被 称 为 二 次 函数 分 类 器 的 原因 。 

让 我 们 来 看 看 这 个 决策 规则 的 含义 。 对 于 测度 (x -uK œ- 久 )， 其 中 涉及 度量 值 x 和 以 
均值 向 量 和 协 方差 矩阵 为 参数 的 一 个 类 别 。 这 个 度量 称 为 马 哈 拉 诺 比 斯 (Mahalanobis) 距离 
的 平方 (平方 是 译 者 加 的 一 一 译 者 注 )。 
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AD， 即 先 求 度量 值 和 均值 之 差 ， 这 是 一 个 向 量 ， 然 后 求 该 向 量 的 内 积 ， 也 就 是 该 向 量 幅 值 的 
平方 。 这 个 结果 表示 的 是 什么 呢 ? 当然 是 度量 值 与 该 类 均值 的 欧 几 里 德 距离 的 平方 。 如 果 先 
验 概率 是 相同 的 ， 并 且 采 用 对 称 代价 函数 ， 则 Threshold (WE) 的 值 为 0， 那 么 决策 规则 就 简 
化 为 : 如 果 下 式 成 立 ， 则 选择 类 别 1， 否 则 选择 类 别 2。 

(x-u)-u)-(x-u)(u-u)«0 ` (14-44) 


如 果 度 量 值 更 接近 类 别 ! 的 均值 ， 那 么 上 式 左 边 小 于 0 。 因 此 我 们 称 这 种 简单 的 分 类 器 为 最 近 
均值 分 类 器 ， 或 者 是 最 近 均 值 决策 规则 。 

下 面 使 这 个 规则 变 得 稍微 复杂 一 些 。 不 再 假设 协 方差 矩阵 是 单位 阵 ， 而 是 假设 它们 是 相 
等 的 (Kl=K,= K). EI, A (14-42) PHARE TO, 由 于 运算 式 中 不 再 含 二 次 项 ， 得 
到 的 是 线性 分 类 器 。 

我 们 可 以 选择 忽略 协 方差 矩阵 行列 式 的 比值 这 一 项 ， 或 者 更 恰当 一 些 ， 将 该 数值 包含 在 
HiT. FESR MEMRAM, (GERI RT ERROR. 我 们 称 这 种 分 类 器 
为 最 小 马 哈 拉 诺 比 斯 距离 分 类 器 。 

还 有 另外 一 种 特殊 情况 。 如 果 协 方差 算 阵 不 仅 相 等 ， 而 且 是 对 角 和 矩阵 ， 会 出 现 什么 情况 
We? 这 时 马 哈 拉 诺 比 斯 距离 具有 特殊 的 形式 。 利 用 一 个 三 维度 量 向 量 来 说 明 这 一 点 ， 设 均值 
为 0。 


Ou 1 X 
[5,3,,,]] 0 — 0 ||x, 
On 


对 上 式 展开 可 得 


O4, O33 O3 


这 是 一 个 椭 球 体 方程 式 ， 以 原点 为 中 心 ， 轴 线 沿 坐 标 轴 方 向 (或 者 ， 在 均值 不 为 0 的 情况 下 ， 
以 均值 为 中 心 )。 更 一 般 的 情况 是 ， 协 方差 矩阵 不 是 对 角 阵 ， 那 么 唯一 的 结果 就 是 椭 球 体 发 生 
旋转 。 因 此 表示 一 个 点 到 一 个 类 别 的 马 哈 拉 诺 比 斯 距离 的 方程 ， 得 到 一 个 椭 球 体 。 

下 面 是 一 种 更 有 趣 的 情况 。 假 设 协 方差 矩阵 是 相等 的 ， 对 角 的 ， 并 且 与 单位 阵 成 正比 开 
三 oI。 那么 类 别 的 判别 函数 具有 下 列 形式 : 


T 2 
a6) = 265 IA qs pe) (14-45) 
oOo Oo 


进一步 假设 所 有 均值 的 幅 值 都 是 相等 的 。 也 就 是 说 ， dE M DUROS d RRR 
上 。 那 么 ， 就 不 再 需要 考虑 公式 (14-45) 中 的 第 二 项 ， 判 别 函 数 化 简 为 : 


g(x) =u; x= $ HX, (14-46) 


我 们 称 该 式 为 内 积分 类 器 。 
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14.6 最 小 最 大 规则 


有 时 候 先 验 概率 是 未 知 的 或 变动 的 。 这 时 ， 若 按 某 一 种 假设 的 先 验 概率 设计 风险 分 类 器 ， 
则 固定 的 决策 规则 将 不 会 使 实际 的 风险 最 小 ， 因 此 我 们 采用 最 小 最 大 规则 并 且 试图 使 最 大 可 
能 的 风险 最 小 化 。( 由 于 原文 这 段 话 表达 得 不 够 准确 ， 翻 译 时 做 了 些 必要 的 改动 。 一 一 译 者 注 ) 
假设 有 c 个 类 别 ， 总 期 望 风险 为 : 


r= SPOS {Cprlw) dr ( 14-47) 
7 T Q 


也 就 是 ， 某 个 自然 状态 的 概率 ， 乘 以 该 自然 状态 的 所 有 可 能 做 出 的 决策 结果 ， 以 及 与 这 些 决 
策 结 果 相 关 的 代价 。 

为 了 更 清楚 地 看 懂 这 一 点 ,考虑 两 类 情况 ， 并 设 i=1。 可 以 看 到 ， 对 P(w, ) 来 说 /是 线性 的 ， 
(BAK (14-47) 最 右边 求 和 式 固定 。 一 一 译 者 注 ) 则 在 PCw) 的 两 个 极 值 上 ， 即 Pov )= 0 或 
P(w1) 二 1，r 取 得 最 大 值 。 如 果 设 C1 =C,=0, 那么 r 的 最 大 值 为 


[Op wd (14-48) 
或 者 为 fCapxlw)ax (14-49) 
R 
因为 9,U 9, 是 完备 空间 ， 那 么 在 式 (14-51) 成 立时 ， 式 (14-50) 取得 最 小 值 。 
max f Cap wiydx, [Cy p(x lw, )dx (14-50) 
Qi Q2 
f Care war = fea pel dae (14-51) 
£i 2 


如 果 C2 = Ci， 根据 最 小 最 大 规则 ，、 通 过 选择 Q, 和 ,使 两 种 错误 的 概率 相等 。 也 就 是 说 ， 我 们 
已 经 选择 了 一 个 条 件 ， 在 没有 类 别 的 先 验 信息 情况 下 ， 将 使 最 大 风险 最 小 化 。 


14.7 最 近邻 方法 


在 前 面 的 几 节 中 ， 都 假设 存在 概率 密度 模型 ， 常 常 是 高 斯 分 布 。 如 果 我 们 只 有 一 个 训练 集 ， 
而 且 这 些 数据 可 能 符合 高 斯 分 布 ， 也 可 能 不 符合 (或 者 是 其 他 参数 模型 分 布 )。 可 能 就 要 采用 简 
单 的 启发 式 方法 ， 称 为 “最 近邻 规则 ”， 即将 未 知 目标 的 类 别 确定 为 训练 集中 最 近邻 的 类 别 。 

这 一 节 ， 把 最 近邻 规则 进行 扩展 ， 并 说 明 通 过 扩展 最 近邻 规则 进行 分 布 密 度 估计 ， 这 与 
最 大 似 然 分 类 器 是 等 价 的 。 l 

该 方法 使 用 环绕 未 知 目标 的 一 个 体积 V9，。 我 们 只 是 简单 地 统计 其 中 各 类 别 出 现 的 点 数 ， 
那么 各 类 别 的 条 件 密度 通过 下 式 进行 估计 
Kn 

PON On) = 

甚 中心 表示 体积 V 内 属于 类 别 m 的 样本 个 数 ， 体 积 VEx 为 中 心 ， nm 是 训练 集中 属于 类 别 m 的 总 
的 样本 个 数 。 





(14-52) 


日 ”当然 ,在 三 维 以 上 的 空间 里 ， 这 是 一 个 超 体积 ， 为 了 简单 ， 我 们 将 继续 使 用 “体积 ” 这 一 词 ， 只 要 明白 没 
有 维 数 限制 就 行 了 。 


w 
Az 
to 
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利用 常量 体积 存在 一 个 问题 。 对 于 密集 的 体积 区 域 (训练 集 的 很 多 点 离 得 很 近 )， 内 含 大 
量 的 点 ， 得 到 的 分 布 密度 估计 会 过 于 平滑 ; 而 对 于 分 布 稀 玻 的 区 域 ， 虽 然 是 同样 大 小 的 体积 ， 
却 会 导致 不 充分 的 估计 结果 。 一 种 简单 的 解决 方法 是 ， 让 体积 与 数据 挂 钧 。 例 如 ， 从 m 个 样本 
中 估计 p(x)， 可 以 以 x 为 中 心 划 一 块 空间 ， 然 后 使 它 慢 慢 增 大 直到 包含 个 样本 为 止 ， 其 中 角 
是 n 的 某 个 确定 的 函数 。 如 果 x 附 近 的 样本 密度 很 高 ， 那 么 划 出 来 的 体积 会 很 小 ， 分 布 密 度 估 
Mah 如 果 密 度 小 的 话 ， 区 域 就 会 增 大 ， 只 要 光滑 就 行 。Duda 等 [14.4] 指 

> kn 提供 一 种 合理 的 表达 方式 。 

可 以 对 k 最 近邻 (k-NN) 规则 稍 作 扩展 ， 以 便 把 该 策略 直接 用 于 分 类 。 给 定 c 个 训练 集 ， 把 

所 有 训练 集中 的 所 有 样本 点 组 合成 为 含 n 个 点 的 数据 集 ， 即 | 


€ 


n= 2^ (14-53) 


其 中 是 训练 集中 的 样本 数 。 | 
对 于 给 定 的 x 点 ， 在 该 点 处 我 们 希望 确定 出 统计 量 ， 可 以 找到 只 包含 混合 集中 个 点 的 球 
体 V。 如 果 在 该 球体 中 ， 有 k, 个 点 属于 类 别 w。， 那 么 像 前 面 一 样 ， 通 过 下 式 估计 概率 密度 : 





kn 
p(xlo,)- n V (14-54) 
以 及 
P(w,,) « 22 (14-55) 
n 
px) = (14-56) 
nV 
对 式 (14-54) ~ (14-56) 应 用 贝 叶 斯 规则 ， 就 会 得 到 
Po, 1a) = on (14-57) 


这 条 规则 告诉 我 们 ， 对 于 k 个 样本 ， 应 该 考虑 未 知 特征 向 量 的 邻 域 。 在 邻 域内 ; 如 果 有 较 多 的 
样本 属于 类 别 ; 而 不 是 其 他 类 别 ， 那 么 就 将 未 知 向 量 划 归 为 类 别 !， 这 样 我 们 就 得 到 了 K 最 近邻 
分 类 规则 。 

应 当 注 意 ， 在 k 最 近邻 规则 中 ， 我 们 并 没有 准确 定义 “最 近 ” 的 计算 方法 。 一 般 认为 欧 儿 
里 德 距离 是 距离 的 最 佳 度量 方式 ， 但 是 也 可 以 用 其 他 方法 。 

根据 作者 对 大 量 工业 数据 集 的 分 类 经 验 ， 发 现 最 近邻 算法 的 分 类 效果 非常 好 。 

Kk 最 近邻 分 类 策略 在 实际 中 用 时 存在 的 主要 缺点 是 ， 所 有 的 数据 都 要 存储 下 来 。 这 是 一 个 
非常 大 的 存储 负担 ,特别 是 与 参数 方法 做 比较 时 ， 因 为 参数 方法 只 需要 几 个 点 。& 最 近邻 方法 
的 计算 负担 也 非常 重 ， 为 了 找到 k 个 最 近邻 ， 必 须 算出 未 知 量 到 其 他 所 有 近邻 点 的 距离 。 有 人 
利用 启发 式 的 方法 使 这 个 过 程 的 运算 速度 显著 提高 ， 可 以 参考 相关 文献 。 例 如 ， 读 读 
Hand[15.7] 中 描述 的 压缩 近邻 规则 ( condensed-nearest- -neighbor rule). r 


14.8 结论 
在 本 章 对 统计 模式 识别 的 简要 介绍 中 ， 我 们 已 经 看 到 统计 方法 是 如 何在 决策 过 程 中 得 到 
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应 用 的 。 我 们 也 看 到 了 优化 方法 在 求解 问题 时 发 挥 重要 作用 。 利 用 最 大 似 然 法 对 概率 密度 进 
行 估计 ， 其 中 的 似 然 性 是 概率 的 衍生 物 。 对 于 高 斯 分 布 来 说 ， 最 大 似 然 就 简化 成 了 平方 和 误 


差 (sum-squared error), 


我 们 已 经 学 习 了 如 何 找 出 使 总 风险 最 小 的 决策 区 间 ， 即 使 是 在 不 同 决策 产生 不 同 代价 的 
时 候 ， 也 可 以 找到 使 被 积 函 数 为 负 的 积分 区 间 的 上 下 限 。 其 至 在 风险 不 可 计算 的 情况 下 ， 也 
有 能 使 最 大 风险 最 小 化 的 方法 。 

分 类 经 常 被 认为 是 一 个 求 “ 最 小 距离 ”的 过 程 。 也 就 是 说 ， 要 做 出 使 某 种 距离 最 小 化 的 
决策 ， 在 本 章 中 已 经 看 到 好 几 个 这 样 的 例子 。 


14.9 术语 
贝 叶 斯 规则 


决策 规则 
判别 函数 
特征 向 量 

似 然 比 
线性 机 
线性 可 分 
最 大 似 然 
最 小 最 大 
多 元 ， 多 变量 
先 验 概率 

二 次 函数 分 类 器 
风险 
监督 学 习 
训练 集 
一 元 ， 单 变量 
无 监督 的 学 习 


作业 14.1 


Bayes’rule 

cluster 

conditional density 
decision boundary 
decision rule 
discriminant function 
feature vector 
likelihood ratio 
linear machine 
linearly separable 
maximum likelihood 
minimax 
multivariate 

prior probability 
quadratic classifier 
risk 

supervised learning 
training set 
univariate 


unsupervised learning 


假设 类 别 1 和 类 别 2 都 很 好 地 服从 高 斯 密度 分 布 ， 且 参数 如 下 : 类 别 1 的 均值 为 0, 方差 为 1， 
类 别 2 的 均值 为 3， 方 差 为 4。 把 高 斯 表达 式 代 入 式 (14-24)， 推 导出 选中 类 别 1 时 x 的 取 值 范围 
公式 。 需 要 先 对 先 验 概率 做 出 一 个 合理 的 假设 (通常 选择 相等 的 概率 ) 。 

提示 : 替换 之 后 ， 对 两 边 同 时 取 自 然 对 数 。 


作业 14.2 


在 一 个 一 维 问题 中 ， 类 别 1 的 条 件 密度 服从 均值 为 0、 方 差 为 2 的 高 斯 分 布 ， 类 别 2 的 条 件 








346 


270 


密度 服从 均值 为 ?3、 方 差 为 1 的 高 斯 分 布 。 即 ， 
p(x!w)- ceu 
UT Ax OA 221 | 
pw) e cen ( - 5-9) 


1) 在 相同 坐标 系 下 画 出 这 两 个 密度 函数 。 
2) 求 出 似 然 比 是 多 少 ? 


#14 # 


3) 假设 P(w1)=P(w,)=0.5 ,Cu=C2=0, C=1, C= 43. 采用 贝 叶 斯 决策 规则 的 积分 形式 ， 


求 错误 概率 。 
作业 14.3 
在 一 个 一 维 问题 中 ， 对 于 特征 x， 两 类 别 的 条 件 概 率 密度 是 


exp(-(x-r)) x»r 
Pel wy) = {0 其 他 
exp(x-3)  x«3 


Kh P(w,)=P(w,)=0.5. 


1) 假设 r<3， 请 画 出 概率 密度 的 示意 图 。 确 定 使 错误 概率 最 小 的 决策 规则 ， 并 说 明 对 于 x 


轴 上 的 一 点 ， 这 个 决策 规则 意味 着 什么 ? 
2) 求 出 使 P(errorl w,) 最 小 的 r 值 。 


专题 14A 统计 模式 识别 
14A.1 用 统计 方法 匹配 特征 向 量 


就 像 上 面 提 到 的 那样 ， 要 专门 讨论 统计 模式 识别 ， 怎么 也 得 用 整 本 书 的 篇 幅 ， 实际 上 已 


经 有 很 多 这 方面 的 书籍 。 我 们 通过 很 简单 的 例子 [13.17]， 简 
单 介绍 该 学 科 的 内 容 。 讨 论 的 问题 是 人 脸 识别 。 首 先 采 集 只 
包含 脸 部 的 各 种 图 像 (这 样 就 避免 了 分 割 问题 ) ， 要 求 每 个 人 
都 穿 黑 色 衣 服 ， 背 后 是 墙 也 是 黑色 的 。 这 样 就 得 到 一 些 分 辩 
率 相 对 较 低 的 图 像 ， 图 像 大 小 为 180 x 120。 然 后 用 如 图 14-5 
所 示 的 特征 提取 器 扫描 图 像 。 每 个 特征 提取 器 对 每 个 像素 点 
的 邻 域 进行 运算 ， 这 与 核算 子 的 运算 方式 一 样 ， 不 过 这 种 运 
算 返 回 的 是 与 核 内 黑色 像素 对 应 的 图 像 像 素 的 积 ， 而 不 是 积 


图 14-5 25 个 核 ， 用 于 从 图 像 中 抽取 


由 25 个 元 素 组 成 的 特征 向 量 


之 和 。 首 先 我 们 观察 到 ， 参 与 这 种 运算 的 每 个 核 ， 返 回 的 是 在 某 个 方向 上 局 部 范围 内 图 像 的 
BHA. Oy 表示 对 像素 的 邻 域 应 用 核 i 的 结果 。 然 后 按 下 式 相 加 ， 生 成 含 25 个 元 素 的 向 量 ， 


该 向 量 在 某 种 意义 上 表示 原始 图 像 。 


(14-58) 
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这 样 ， 对 于 每 幅 图 像 ， 我 们 都 得 到 由 25 个 元 素 组 成 的 向 量 。 现 在 的 问题 是 ， 如 何 根据 该 25 
维 向 量 做 出 合适 的 决策 。 第 一 步 要 将 维 数 减少 到 某 种 程度 ， 以 便 处 理 起 来 比 25 维 的 更 加 简单 。 
我 们 要 找到 一 种 降低 维 数 的 方法 ， 能 将 维 数 从 d 维 减少 到 c - 1 维 ， 因 为 我 们 希望 将 数据 分 
成 c 个 类 别 。( 由 于 某 些 原因 ， 我 们 必须 知道 c， 在 这 个 例子 中 c 表 示 对 于 不 同人 的 人 脸 类 别 个 
Jr.) 接 下 来 的 策略 是 文献 中 称 作 “ 费 希 尔 (Fisher) 线性 判别 ”的 扩展 方法 。 
假设 我 们 有 c 个 不 同 的 类 别 ， 以 及 一 个 训练 集 ， 每 个 类 别 的 样本 个 数 为 X,.。 于 是 ， 这 是 一 
个 监督 学 习 问 题 。 定 义 类 内 散 布 算 阵 为 : l 





S = Ys (14-59) - 
其 中 
3 = Dd c (14-60) 
p, 是 类 别 ; 的 均值 。 于 是 ，5; 就 度量 了 每 类 偏离 下 列 平均 值 的 程度 。 
1 
a (14-61) 
FEMA] BA HEH: 
Sp = Yu - u)(4; — Du (14-62) 
其 中 ,4 是 所 有 训练 集中 所 有 点 的 均值 ，n, 是 " 
类 别 i 中 的 样本 数量 。 为 了 明白 上 式 的 含义 ， n 
请 参见 图 14-6。 类 间 散 布 表示 每 类 均值 和 样本 H 


总 均值 间 的 距离 之 和 。5s 最 大 化 使 各 类 均值 相 
分 离 ， 并 远离 总 均值 。 

这 种 做 法 的 思想 是 找 出 每 个 数据 向 量 x 在 
向 量 y 上 的 投影 ， 


Hs 


图 14-6 类 间 散 布 度量 类 均值 与 总 均值 间 的 总 距离 


了 = Wx (14-63 ) 

首先 ，y 的 维 数 要 比 x 的 维 数 少 。 其 次 ， 投 影 之 后 要 能 够 更 好 地 将 各 类 分 开 。 
从 4 维 空间 投影 到 c - 1 维 空间 ， 通 过 下 列 c - 1 维 线性 判别 函数 实现 。 

y; -wlx (14-64) 
AURA y, 看 成 是 向 量 的 组 成 部 分 ，w 是 矩阵 W 的 列 向 量 ， 那么 就 可 以 用 下 列 和 矩阵 方程 描述 所 
有 的 判别 函数 : 

y-W'x (14-65) 
现在 定义 准则 函数 ， 该 函数 是 W 的 函数 ， 并 且 度 量 类 间 散 布 与 类 内 散布 之 比 。 我 们 希望 9s 与 
Sw 之 比 达到 最 大 ， 或 者 使 SS, 的 某 种 度量 最 大 。 So's, 的 迹 ， 等 于 Sy Ss 在 主 成 分 方向 上 的 
散 差 (spread) 之 和 。 在 只 有 两 类 的 情况 下 ， 可 以 很 清楚 看 出 其 中 的 含义 。 
nn, 


trSw (1 - SX, - B) - —m op ( 14-66) 


-1 
J =trS;'s, = 
ni +n, ni tn, 











y 
O 
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其 中 成 是 两 类 间 的 马 哈 拉 诺 比 斯 距离 的 平方 。 

我 们 先 不 使 矩阵 的 迹 最 大 化 ， 而 是 利用 下 列 行列 式 重 新 定义 7: 
|w*s,w| 
|W" Syw] 
因为 该 行列 式 的 值 等 于 特征 值 之 积 ， 因 此 也 等 于 主 方向 上 的 散 差 之 积 。 与 费 希 尔 线性 判别 方 
法 的 情况 相同 ,通过 特征 值 分 析 法 可 以 求 出 该 方程 的 解 ， 而 最 优 W 的 列 向 量 是 与 最 大 特征 值 
对 应 的 特征 向 量 。 


J(W) = (14-67) 





S,W, = A, Sw, (14-68) 
其 中 特征 值 是 下 列 特征 方程 的 根 : 
[Sz - 4,S,| -0 (14-69) 
然后 再 求解 如 下 方程 就 得 到 向 量 w。 
(S5 —A,Sy)w, =0 (14-70) 


这 种 扩展 的 费 希 尔 线性 判别 方法 ， 广 泛 存在 于 各 种 计算 机 软件 包 中 。 经 常用 它 选 择 原始 
变量 的 子 集 ， 而 不 是 通过 变换 使 维 数 降低 。 通 过 仔细 察看 所 得 到 的 特征 值 ， 并 按 变 量 对 应 的 
相对 大 小 〈 正 或 负 ) 标记 ( 译 者 注 : 应 按 特 征 值 的 相对 大 小 〈 正 或 负 ) 标记 )。 较 大 的 特征 值 
意味 着 对 应 的 变量 为 类 间 可 分 性 做 出 的 贡献 较 大 ， 就 和 我 们 在 K- 工 变换 中 学 过 的 一 样 。 

我 们 减少 了 25 维 向 量 的 维 数 ( 这 里 假设 类 别 数 目 小 于 25)。 在 这 个 低 维 空间 中 进行 分 类 器 
设计 ， 怎 么 进行 呢 ? 这 一 点 很 容易 做 到 。 利 用 公式 (14-5), REAR (14-5) 中 右边 的 对 数 
形式 〈 请 自己 进行 推导 ! )， 推 导出 判别 函数 ， 做 到 当 样本 划 归 为 正确 的 类 别 时 函数 值 最 大 。 


14A.2 支持 向 量 机 


基于 支持 向 量 概念 的 模式 分 类 器 相对 来 说 是 比较 新 的 。 它 们 由 Vapnik[14.12] 第 一 次 提出 
来 ， 以 结构 风险 最 小 化 为 基础 。 在 这 里 提出 支持 向 量 分 类 方法 ， 是 因为 这 类 方法 着 起 来 比 其 
他 很 多 模式 分 类 方法 具有 更 好 的 性 能 。 为 了 说 明 该 类 方法 ， 要 求 使 分 类 间隔 最 大 的 优化 问题 ， 
我 们 还 给 出 最 简单 的 支持 向 量 方法 的 推导 过 程 。 


14A.2.1 线性 可 分 条 件 下 的 支持 向 量 机 推导 

在 这 一 节 ， 假 设 训练 集中 的 样本 可 以 用 线性 平面 分 开 。 在 下 一 小 节 中 ， 对 这 一 假设 进行 
讨论 ， 并 且说 明 如 何 保证 这 一 假设 条 件 。 

跟前 面 一 样 ， 想 办 法 用 一 个 超 平面 将 特征 空间 划分 为 两 部 分 ， 共 中 训练 集中 的 样本 是 线 
性 可 分 的 。 定 义 类 别 1 中 与 超 平面 距离 最 近 的 点 之 间 的 距离 为 di， 同样 定义 4 是 类 别 2 中 与 超 平 
面 距离 最 近 的 点 之 间 的 距离 ， 定 义 分 类 间距 (margin) 等 于 d+d:。 我 们 要 找到 一 个 使 分 类 间 
距 最 大 的 超 平面 (如 图 14-7 和 14-8 中 所 示 )。 

用 超 平面 划分 ， 则 可 表示 成 : 对 于 样本 点 x， 将 这 个 样本 投影 到 某 个 单位 向 量 9， 如 果 
x 一 9>0， 其 中 q 为 常量 ， 则 按 此 决策 规则 确定 属于 类 别 1。 

设 x 是 类 别 1 中 的 一 点 ， 同 样 ，zs 是 类 别 2 中 的 一 点 。 因 为 要 寻找 离 决策 线 最 近 的 点 ， 因 此 
希望 选择 x, 和 x 以 使 它们 在 p 上 的 投影 尽 可 能 靠近 。 如 图 14-9 所 示 ， 寻 找 点 zi 和 总 以 使 下 式 中 
的 正 值 p 最 小 : | 
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o o 
O O 
no 类 别 1 40 Oo o 
类 别 1 
: n 
D 类 别 2 口 类 别 2 
图 14-7 较 差 的 分 界面 (本 ”图 14-8 较 好 的 分 界面 ， 图 14-9 标记 1 和 2 的 两 类 别 的 点 投影 到 同一 
例 二 维 情况 是 一 条 分 类 间距 较 大 Hwi. HADFRER TW, Z 
线 )， 分 类 间距 较 小 从 训练 集中 找 出 最 接近 分 界线 的 点 
P'X,=q+P PX=9-p (14-71) 


定义 I 是 属于 类 别 ; 的 训练 样本 集 。 对 于 中 的 任意 点 ， 都 有 9'x 一 9>p; 对 于 ,中 的 任意 点 ， 都 
有 wx 一 4<p 我 们 需要 和 做 如 下 的 工作 : 1) 找到 一 对 点 ， 其 中 每 个 类 别 中 一 个 点 9 ， 并 且 两 个 点 
尽 可 能 靠近 。 我 们 称 这 些 点 向 量 为 支持 向 量 。2) 找到 一 个 向 量 ， 使 支持 向 量 到 该 向 量 的 投影 
相距 最 远 。 我 们 通过 如 下 的 方法 来 解决 这 个 问题 。 

注意 % 是 一 个 单位 向 量 。 这 样 它 就 等 于 在 与 它 相同 方向 上 某 个 向 量 除 以 自身 幅 值 的 结果 。 
我 们 要 找 的 这 个 向 量 ， 带 有 一 定 的 特性 ， 这 将 在 下 面 介绍 。 设 zx 表示 站 中 的 任意 点 ， 不 必 是 支 
持 向 量 ; Ri. XE LP A. 那么 ， 


T T 


A x,-q» p ia x,-q« p (14-72) 
Iwi || 
可 以 推出 : 
wx -qlw > ew] w"x, — alwil« olwl (14-73) 
定义 b= 一 qllwill， 我 们 对 w 进 行 限 制 ， 要 求 它 的 幅 值 具有 如 下 特性 : 
||| =1/ p (14-74) 
则 下 面 的 两 个 式 子 可 以 描述 类 别 1 或 类 别 2 中 的 任意 点 具有 的 性 质 : 
w'x*-b21 w'x4b«l (14-75) 


由 于 希望 找 出 使 公式 (14-74) 中 的 类 间距 p 最 大 的 直线 ， 可 以 看 出 也 就 是 找 出 幅 值 最 小 的 投 
影 向 量 w， 于 是 得 到 p agmi iwy) e 不幸 的 是 ， 夫 向 量 也 能 使 之 达到 最 小 ， 因 此 需要 汪 
2 


加 其 他 约束 条 件 来 避免 这 种 无 效 解 。 
设 y; 是 点 x 的 标记 ， 标 记 定 义 为 : 


1 x; ED 
X741 x, El, (14-76) 


因此 不 论 x; 属于 哪个 类 别 ， 表 达 式 y; (wrtb) 的 值 总 是 大 于 1 或 者 是 等 于 1。 于 是 我 们 就 得 到 一 
个 约束 条 件 ， 而 最 小 化 问题 变 为 : 找 出 使 ww 最 小 化 的 vw， 以 使 y; (wx, +b) > 1, 


日 ”每 类 可 能 有 不 只 一 个 支持 向 量 ， 因 为 有 可 能 存在 两 点 到 超 平 面 有 相同 的 距离 。 


w 
© 
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实现 这 一 点 ， 可 以 通过 建立 如 下 的 约束 优化 问题 : 
i 
Low,b,) = wn - S A ux «b)-1) (14-77) 


其 中 /表示 训练 集中 的 样本 数量 。 
式 中 的 拉 格 朗 日 乘 子 将 全 部 为 正 。 对 w 求 偏 导 ， 


| = =w- Y ^n», (14-78) 
并 且 令 上 式 为 0， 可 得 : 
w= Y Ax (14-79) 
同样 ， 对 b 求 偏 导 ， 可 得 : 
. aL 
—--WAy- 4-80 
m Y^» 0 (14-80) 


有 了 这 两 个 结果 ， 关 于 7 的 公式 可 以 简化 为 : 
L= 29 wats 一 D DADAN AD + X^ (14-81) 
其 中 第 一 项 除了 系数 1/2 外 ， 和 第 二 项 是 相同 的 。 第 三 项 等 于 0。 如 果 定义 矩阵 4 如 下 : 
A= [yyxi x;] (14-82) 
从 而 得 到 LL 的 矩阵 形式 ， 
L=-SATAASITA (14-83) 


其 中 1 表示 元 素 全 为 1 的 向 量 。 
寻找 使 L 最 小 化 的 拉 格 朗 日 乘 子 向 量 是 一 个 二 次 优化 问题 。 有 若干 个 数学 运算 包 都 具有 
这 种 运算 功能 。 一 旦 我 们 得 到 了 拉 格 朗 日 算 子 集 ， 就 可 以 利用 式 (14-79) 求 出 最 佳 投 影 向 
量 ， 它 需要 求 训练 集中 所 有 元 素 的 总 和 。 为 了 求 出 bp， 要 用 到 库 思 一 塔 克 (Kuhn-Tucker) 
[14.5] 条 件 : 
AW x, *b)-1)-0 Wi (14-84) 


MAE, AR (14-84) 可 以 用 任意 i 求解 »， 但 是 数学 上 最 好 使 用 平均 值 。 

同样 ， 我 们 也 注意 到 4 的 维 数 与 训练 集中 的 样本 数目 是 相等 的 。 因 此 ， 在 建立 SVM 之 前 ， 
如 果 不 对 训练 集 进行 “过 读 ” 的 话 ， 计 算 起 来 将 会 十 分 复杂 。 
14A.2.2 非 线性 支持 向 量 机 mE 

在 非 线性 支持 向 量 机 (support vector machine, SVM) 中 ， 不 是 直接 处 理 实际 样本 ， 而 
是 采用 非 线 性 变换 产生 一 个 更 高 维 的 向 量 y, =B(x,))。 例 如 ， 如 果 x=[x1, oI ECR, yA REE 
六 维 向 量 : 
y, = [xt x2 o x, x, x, I] (14-85) 


奇怪 的 是 ， 维 数 的 提高 并 不 破坏 分 类 器 的 性 能 .“ 自 由 度 ” 扩 展 怎么 能 够 提高 训练 集 的 精确 度 
和 推广 能 力 呢 ? 关于 这 个 问题 ，Burges[14.2] 曾 经 说 过 : 
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一 般 ， 把 数据 映射 到 高 维 数 的 特征 空间 ， 预 示 着 支持 向 量 机 的 推广 性 能 非常 差 。 毕 竟 ， 
所 有 超 平 面 集合 {w, 5} 由 dim(H)+1 个 参数 表示 。 多 数 包含 上 亿 个 蕉 至 无 限 多 参数 的 模式 识别 
系统 ， 连 开始 的 那 道 门 都 通 不 过 。 那 么 支持 向 量 机 是 怎么 做 得 这 么 好 昵 ? 有 人 或 许 会 争论 说 ， 
在 给 定 解 的 形式 这 一 前 提 下 ， 最 多 有 lL+1 个 可 调 参 数 ( 此 处 ! 指 训练 样本 的 个 数 )。 但 是 这 似乎 是 
在 逃避 问题 。 必 须要 做 点 什么 ， 使 超 平面 满足 类 间距 最 大 的 要 求 ， 这 样 才 能 扭转 不 利 局 面 ……. 
举 出 一 种 有 力 的 证 据 来 支持 这 种 主张 。 

A (14-85) 表示 的 扩展 形式 增加 了 空间 的 维 数 ， 并 提高 了 在 更 高 维 空间 类 别 线性 可 分 
的 可 能 性 (关于 其 原因 已 经 超出 了 简要 介绍 的 范围 )。 它 同样 也 提供 了 一 种 根据 度量 值 进 
行 非 线性 信息 综合 的 机 制 。 式 (14-85) 的 多 项 式 形式 ， 只 是 扩展 度量 向 量 维 数 的 一 种 方 
法 。 观 察 式 (14-83) 时 ， 另 一 种 更 有 趣 的 综合 方法 就 会 从 你 的 脑海 出 现 ， 并 且 可 以 看 到 ， 
计算 最 优 分 界面 了 时， 不 需要 知道 这 些 向 量 本 身 ， 而 只 需 计算 所 有 内 积 的 标量 结果 。 因 此 ， 
我 们 不 需要 将 每 个 向 量 都 映像 到 高 维 空间 ， 然 后 再 计算 向 量 内 积 ， 只 要 事先 算出 其 内 积 结 
果 就 行 。 

核 与 内 积 

Ey: = Hx), ORR"), m»d;E LW ERAS, SHREK. MUR. HEA 
素 的 等 式 变 为 新 向 量 4=[0; y; W(x) Bx)))] 的 内 积 的 函数 。 为 了 表示 方便 起 见 (从 而 使 结果 更 
清楚 )， 我 们 定义 一 个 核算 子 ，K(x;, x)， 其 中 考虑 了 非 线 性 变换 好久 及 内 积 。 现 在 的 问题 不 是 
“我 应 该 用 什么 样 的 非 线性 算 子 呢 ， 而 是 另 一 个 不 同 的 问题 : “对 于 一 个 特定 的 核 ， 它 可 以 表 
示 一 个 非 线性 算 子 和 一 个 内 积 的 组 合 吗 ? ”。 令 人 惊奇 的 是 ， 答 案 竟然 是 肯定 的 ， 在 特定 条 件 
下 是 可 能 的 。 这 些 条 件 称 为 Mercer 条 件 : 给 定 一 个 带 两 向 量 自 变 量 的 核 函 数 K(a, 5)， 如 果 对 
于 具有 有 限 能 量 (Hl. f(g(x))?dx 是 有 限 的 ) 的 任意 e(x)， 都 有 /Kla, b) g(a) g(b) da db > O, 
那么 就 存在 一 个 映像 妍 HK 的 下 列 形式 的 分 解 

K(a,b)= X Oa) (14-86) 


EAR (14-86) 中 ， 下 标 凌 示 向 量 函 数 8 的 第 ;个 元 素 。 因 此 ， 该 表达 式 表示 一 个 内 积 ， 注 意 
到 Mercer 条 件 只 是 简单 地 规定 :如 果 K 满 足 这 此 条件， 那么 K 可 被 分 解 成 函数 吧 g 两 个 实例 的 内 
积 。 这 就 行 了 ， 我 们 不 必 知道 更 多 的 。 实 际 上 即使 向 量 5 的 维 数 可 能 是 无 限 的 ， 那 也 不 成 问题 
我 们 知道 有 一 个 核 函 数 符合 Mercer 条 件 ， 并 且 在 支持 向 量 机 文献 中 经 常 被 用 到 ， 这 就 是 

BARAR. 
K(a,b) = exp- coma) 


DE (14-87) 


在 文献 中 ， 支 持 向 量 机 被 用 于 解决 各 种 问题 ， 例 如 人 脸 识别 [14.10]， 以 及 乳腺 癌 检 查 [14.1]。 
在 这 些 文献 的 前 期 研究 [14.7] 和 比较 分 析 中 ， 学 者 们 用 经 验 验证 了 支持 向 量 机 比 十 典 分 类 工具 
如 神经 网 络 和 最 近邻 规则 [14.9,14.13,14.14] 的 效果 都 要 好 。 有 趣 的 一 次 是 ， 针 对 超 光 谱 数 据 ， 
将 支持 向 量 机 与 另 一 个 分 类 器 做 了 对 比 。 比 较 结果 证 明 ， 对 于 多 谱 数 据 (将 原始 超 光 谱 数 据 
过 滤 后 得 到 )， 用 支持 向 量 机 分 类 器 在 性 能 上 明显 优 于 基于 原始 数据 的 分 类 器 [14.8]。 


14A.3 结论 
统计 学 方法 提供 了 基于 度量 值 的 决策 工具 。 如 果 那 些 度量 值 有 足够 大 的 差别 ， 可 以 简单 
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在 通常 情况 下 并 不 足以 用 来 做 出 决策 。 

从 14A.1 节 看 到 的 例子 ， 仅 仅 是 机 器 视觉 的 一 个 具体 应 用 ， 我 们 用 它 介绍 了 统计 模式 识别 
这 一 学 科 的 某 些 方面 。 如 果 想 了 解 有 关 统 计 方 法 的 知识 ， 本 书 介绍 的 内 容 远 远 不 够 ， 不 能 让 
你 掌握 需要 的 全 部 知识 。 因 此 你 应 该 修一 门 完整 的 统计 模式 识别 课程 。 希 望 通过 这 一 章 的 学 
习 ， 能 够 促使 你 选修 一 门 统计 模式 识别 课程 。 

在 14A.1 节 ， 我们 推导 出 一 个 目标 函数 ， 如 果 它 取 极 大 值 ， 就 可 以 使 不 同类 别 的 数据 的 投 
影 值 尽 可 能 分 开 。 它 又 将 最 大 化 问题 转变 成 了 特征 值 问题 。 

SVM 找 出 能 使 类 间距 最 大 化 的 决策 分 界 ， 此 处 的 类 间距 指 的 是 ， 不 同类 样本 与 决策 分 
界面 相距 最 近 的 点 之 间 的 距离 ， 支 持 向 量 机 的 推导 需要 用 到 带 拉 格 朗 日 乘 子 的 受 约束 最 优化 
问题 。 


14A.4 术语 
类 间 散 布 between-class Scatter 
费 希 尔 线性 判别 Fisher's linear discriminant 
类 间距 margin 
^ Mercere ft Mercer's condition 
支持 向 量 support vector 
类 内 散布 within-class scatter 
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Woes cluster; rare are solitary woes. 

Edward Yeung 
在 本 章 ， 我 们 研究 第 14 章 曾经 涉及 的 一 个 问题 ， 即 一 个 训练 集 仅仅 只 包括 一 些 点 ， 而 这 些 
点 没有 任何 标记 来 表明 它们 属于 哪 一 类 。 在 前 一 章 ， 我 们 只 对 这 个 领域 作 了 简要 的 介绍 ， 并 建 
议 读者 参考 其 他 著作 [14.4,15.7]， 以 获得 更 加 全 面 的 认识 。 这 里 略 去 了 一 个 非常 重要 的 研究 领 

域 ， 就 是 生物 学 模型 在 聚 类 方面 的 应 用 [15.4,15.5,15.6]， 强 烈 建 议 读者 看 看 这 些 参考 资料 。 
我 们 在 更 一 般 意 义 上 讨论 聚 类 问题 ， 但 会 重点 介绍 聚 类 的 一 个 特殊 应 用 实例 ， 也 就 是 识 

别 Hough 变 换 数组 的 峰值 。 

考虑 人 造 卫 星 模式 分 类 问题 。 人 造 卫星 俯 辐 地 球 ， 绕 地 球 运动 。 从 地 球 表 面 上 的 每 个 被 观 
察 点 ， 采 集 从 该 点 地 面 发 出 或 反射 的 一 些 光 线 的 度量 数据 。 一 般 情 况 下 ， 从 某 个 观察 点 采集 7 
种 不 同 的 度量 值 ， 每 个 度量 值 对 应 不 同 的 光谱 带 。 因 此 所 得 到 的 “图 像 ”的 每 个 像素 ， 都 将 是 
一 个 7 维 向 量 ， 向 量 中 的 元 素 可 能 表示 远 红 外 、 近 红外 、 蓝 光 、 绿 光 等 光谱 强度 。 假 设 我 们 对 
训练 集 进行 标记 ， 指 明了 小 麦 、 谷 物 、 草 、 树 木 等 对 应 的 像素 区 域 。 有 了 这 些 训 练 集 ， 似 平 能 


想 想 被 称 为 “树木 ”的 这 个 类 别 ， 该 类 包含 常 青 类 树木 以 及 叶子 已 藩 的 树木 ， 随 着 季节 的 变化 ， 
它们 会 产生 截然 不 同 的 光谱 效果 。 这 种 情况 说 明 存在 一 个 参数 分 类 器 不 容易 解决 的 模式 分 类 问 
题 。 当 然 我 们 可 以 用 非 参 数 的 方法 ， 但 是 参数 方法 更 加 吸引 人 。 取 代 非 参数 分 类 器 的 一 种 方法 
是 ， 考 虑 用 某 种 方法 确定 子 类 的 存在 ， 把 训练 集中 的 点 归 类 到 正确 的 子 类 中 去 ， 然 后 将 每 个 子 


类 用 参数 形式 表述 。 图 15-1 显 示 的 是 二 维 空间 问题 ， 可 以 很 清 e e. 
楚 地 看 到 ， 同 一 个 训练 集中 存在 两 个 类 别 。 在 下 面 的 讨论 中 ， e ee 


FERRE FARA RR”. EPIRA AD LA — Hie H5 a BH NR 图 15-1 有 两 个 子 类 的 训练 集合 
表示 。 但 整个 度量 空间 很 明显 是 双 模式 (bimodel) 的 。 

对 我 们 人 类 来 说 ， 这 样 的 聚 类 在 二 维 空间 中 很 容易 做 到 可 视 化 ， 但 在 超过 三 维 的 空间 中 
就 不 容易 做 到 可 视 化 了 。 


15.1 聚 类 之 间 的 距离 


定义 并 显示 点 与 点 之 间 的 距离 度量 相对 比较 容易 ， 包 括 欧 几 里 德 距离 dc, b)=la — bl， 城 市 
街区 距离 2 lw -上 1。 这 种 思想 可 以 很 容易 推广 到 用 来 度量 点 与 育 类 之 间 的 距离 。 一 种 度量 方 
法 是 点 x 与 谷类 均值 1 之 间 的 欧 几 里 德 距离 (或 城市 街区 距离 )。 另 一 种 度量 方法 ， 考 虑 了 聚 类 的 
分 布 情况 ， 也 就 是 大 家 熟悉 的 马 哈 拉 诺 比 斯 距离 (参见 14.5 节 )。 点 zx 和 聚 类 4 之 间 的 马 哈 拉 诺 
比 斯 距离 (的 平方 一 一 译 者 注 ) 如 下 。 

nan (X, A) = (x - 14) Ky (x - n4) (15-1) 


其 中 Ks ERAN 2E BOSE 
我 们 还 没有 考虑 两 聚 类 间 的 距离 度量 方法 ， 而 讨论 聚 类 算法 ， 需 要 有 这 样 的 度量 方法 。 








we 
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如 何 定义 两 聚 类 之 间 的 距离 就 不 那么 显而易见 了 (从 下 面 的 讨论 中 就 可 以 看 到 ) ， 因 为 每 个 聚 
类 都 有 可 能 包含 很 多 点 。 最 简单 的 方法 是 利用 两 聚 类 样本 均值 之 间 的 距离 (也 称 为 质心 距离 ) 

das (A, B) = | 一 Ha| | (15-2) 
[ODIVE T EG RE P PARI SLL ERS, ELA 


disne (A, B) = A (15-3) 
ACA ARH SUAE ERU SEE E. RR EAD RLM TO. XX (15-3) 中 的 参数 是 
映射 后 数据 的 样本 均值 和 样本 方差。 
关于 如 何 定义 两 个 聚 类 之 间 的 距离 ， 可 以 提供 一 一 种 更 为 正式 的 描述 方式 ， 首先 说 明 这 种 
距离 应 具有 的 特性 ， 要 求 它 满足 下 列 条 件 : 
d(A, B)>0 
d(A, B)-0 ， 如 果 A=B (15-4) 
d(A, B)» d(B, A) 
满足 这 些 条 件 的 度量 方式 有 很 多 。 例如 ， 可 以 在 整个 样本 空间 对 密度 求 积分 ， 得 到 散 度 


( divergence ) ， 





p(x1A) 
da, (A, B)- = fox 1- pl Bun Ta) ip (15-5) 
对 于 多 元 高 斯 函数 ， 公 式 变 为 “ 
(Qs ~ Ha)” GG" + Kn = yg] tK Ki, + Kz'K, -2D)12 (15-6) 
当 两 个 协 方差 矩阵 相等 时 ， 上 式 可 以 简化 为 
A? w (u, - u) Ku, - uy (15-7) 
Chernoff 距离 是 
da, (A,B) = -in f(pGx 1 A)" (p(x |B)’ dx (15-8) 
对 于 多 元 高 斯 函数 ， 公 式 变 为 
25 7504, - po) IQ -KA + SK, T^ Qu, a) 
1, 0-9K, +K,| (15-9) 
PLUIE CURE 
Ika] IK 
当 s=1/2 肝 ， Chernoff Pi By 24 ELBE HS HL E (Bhattacharyya) al 
LK + 天 
dea uu yl Kat Ke CO y ?1 15-10 
no Hg) ( 2 ) (4, — Mg)+#~ 2e "IK," (15 ) 
在 文献 中 最 常用 的 聚 类 距离 是 最 近邻 距离 : 
d, (A, B) = min,, d(a,b) xf a€A,b EB (15-11) 


也 就 是 说 , 在 一 个 来 自 聚 类 4， 一 个 来 自 聚 类 B 的 所 有 点 对 中 ， 选 择 两 个 最 靠近 的 点 ， 并 将 这 
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两 点 间 的 距离 定义 为 两 察 类 间 的 最 近邻 距离 。 
同样 ， 可 以 定义 最 远 邻 距离 为 : 
l dmax (A, B) = MAK en pen d(a, b) (15-12) 
以 上 每 种 定义 给 出 了 标量 形式 的 度量 方式 ， 在 某 种 意义 上 表示 了 两 个 罕 类 的 分 开 程 度 。 
无 论 何 时 ， 在 对 具有 向 量 值 的 量 进行 距离 度量 时 ， 应 该 注意 到 坐标 比例 的 变化 会 引起 结 
果 发 生 改 变 。 例 如 ， 考 虑 图 15-2 所 示 的 点 集 。 另 一 个 说 明 聚 类 影响 的 例子 ， 是 对 向 量 [e.b]7 的 
分 类 问题 ， 其 中 a 表示 居住 人 口 数 ，b 表 示 大 学 数目 。 现 在 ， 考 虚 向 量 x 和 向 量 y 之 间 的 距离 ， 


d(x,y) = J(x, - Ya) +(% - 9. x, Ya (15-13) 


在 这 种 情况 下 ， 第 二 个 特征 不 必 考 虑 ， 因 为 和 第 一 个 特征 的 影响 相 比 ， 它 的 影响 是 微不足道 
的 。 解 决 这 种 问题 的 一 种 通用 的 标准 方法 是 ， 将 每 个 特征 除 于 它 的 标准 差 。 
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图 15-2 坐标 轴 的 比例 变化 对 诊 类 结果 有 明显 的 影响 


15.2 RARE | 

这 里 只 介绍 两 种 聚 类 算法 ， 合 并 聚 类 (agglomerative clustering) AJAR, ERX 
问题 表示 成 最 优化 问题 。 文 献 中 还 有 其 他 一 些 算法 ， 但 在 实际 应 用 中 用 得 比较 少 。 
15.2.1 合并 聚 类 


在 合并 聚 类 中 ,首先 把 训练 集中 的 每 个 数据 点 都 看 作 一 个 单独 的 诊 类 , 如 果 有 N 个 数据 点 ， 
那么 一 开始 就 有 N 个 聚 类 。 接 下 来 ， 进 行 迭 代 : 将 两 个 最 近 的 聚 类 合并 。 . 

“合并 ”的 含义 是 : 1) REIT REAR GET POE — MER) ; 2) 建立 一 个 
新 的 集合 ， 由 两 个 附 类 合并 而 成 ; 3) 去 掉 原 来 的 两 个 聚 类 ， 如 图 15-3 所 示 。 


图 15-3 在 聚 类 和 迭代 之 前 (左边 ) ， 数 据点 已 经 被 分 为 3 个 聚 类 。 聚 类 B 与 C 之 间 的 距离 要 比 4 与 了 或 者 4 与 
C 之 间 的 距离 近 〔 以 某 种 方式 度量 )， 因 此 合并 B 与 C， 并 且 重 新 命名 一 个 新 的 聚 类 B 
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RUA BEAR FARR. cec HUI #56 A . 
开始 的 时 候 ， 每 个 聚 类 只 包含 一 个 单 点 ， 聚 类 之 间 的 距离 就 是 点 之 间 的 距离 。 然 而 合并 


过 程 开始 后 ， 就 要 用 前 面 介 绍 的 聚 类 之 间 的 距离 度量 方法 。 
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合并 聚 类 的 特点 . 

用 这 种 算法 得 到 的 聚 类 ， 很 大 程度 上 依赖 于 所 用 的 距离 度量 方法 。 例 如 ， 利 用 dni 进行 距离 
和 运算， 得 到 的 察 类 可 以 用 如 图 15-4 中 的 连 线 所 
示 ， 于 是 得 到 这 个 图 的 最 小 生成 树 (minimum 
spanning tree，MST)， 继 续 这 个 过 程 直 到 只 有 
一 个 聚 类 为 止 。 如 果 想 得 到 三 个 聚 类 ， 只 需 将 
图 中 两 条 最 长 的 边 割 断 。 人 们 从 中 可 以 意识 到 ， 
如 果 形 式 化 的 图 论 运 算 来 源 于 聚 类 ， 那 么 逆 命 
题 也 很 可 能 成 立 。 关 于 图 的 任何 知识 ， 都 可 以 es NE 、 
帮助 我 们 设计 聚 类 算法 。 特 别 是 ， 下 面 这 种 算 BOS ARERR ER. AT 
法 可 以 快速 构造 一 个 图 的 最 小 生成 树 。 

将 操作 y =FIND(X) 定 义 为 返回 包含 x 的 集合 的 名 字 。 与 此 相似 UNION(4, B, OC) 创造 一 个 新 
f&c-A U B 然 后 删 去 4 集 和 B 集 。 


算法 : 求 最 小 生成 树 

1) 计算 图 中 所 有 的 边 (在 聚 类 中 就 是 求 所 有 点 对 之 间 的 距离 ， 不 是 所 有 可 能 的 豪 类 ， 而 
仅仅 是 点 )。 

2) 按 边 的 长 度 进行 排序 (如 果 有 N 个 点 ， 就 有 NM 条 边 )。 

3) 从 最 短 的 边 开始 ， 对 于 结 点 u 和 v 之 间 的 每 条 边 ， 进 行 以 下 运算 : 

3.1) ASFIND(u) 
3.2) B-FIND(v) 
3.3) IF(A * B) THEN C=UNION(A, B, C) 并 去 掉 集 合 4 和 有 

一 般 在 第 3.3 步 中 ， 对 每 一 个 集合 都 建立 一 个 整数 索引 。 去 掉 4 和 8 的 时 候 并 不 把 它们 的 索 
引 也 去 掉 ， 而 是 利用 4 或 3 的 索引 〈 值 小 的 那个 ) 作为 新 集合 C 的 索引 。 

像 参 考 文献 中 [15.1,15.8] 所 讨论 的 那样 ， 存 在 一 些 并 行 算法 ,能 够 在 恒定 时 间 内 执行 寄存 
器 UNION - FIND 运 算 。 并 行 算法 假定 存在 一 个 进行 FIND 运 算 的 查找 表 ,然后 通过 并 行 硬件 ， 
按 如 下 方式 实现 UNION 运 算 : 对 点 u 和 v 执 行 一 次 UNION - FIND 运 算 。 l 

1) 寄存 器 1<= 查 找 (1) ` | 

2) 寄存 器 2<= 查 找 (v) 

3) If XOR( 寄 存 器 1， 寄 存 器 2)， 
rewrite(minimum(u, v), maximum(u, v)), 其 中 
rewrite 是 一 种 并 行 运算 。 

rewrite(x, y) 将 把 查找 表 中 所 有 含 y 的 位 置 
置 为 x。 A 

现在 我 们 知道 了 合并 聚 类 算法 的 工作 原 
理 ， 也 明白 了 使 用 di 距离 的 合并 聚 类 算法 将 “图 155 用 du 聚 类 ， 并 用 线段 表示 每 次 聚 类 选择 的 距 
会 产生 点 集 的 最 小 生成 树 ， 而 且 这 种 树 也 可 以 离 得 到 的 聚 类 结果 与 利用 du 的 结果 非常 相似 
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利用 图 论 或 者 并 行 算法 得 到 。 

看 看 4 是 怎样 对 同一 组 数据 聚 类 是 很 有 意思 的 , 其 结果 如 图 15-5 所 示 。 然 而 ， 如 图 15-6 
至 15-8 所 显示 的 那样 ， 情 况 并 不 总 是 如 此 。 特 别 地 ，dmm 倾 向 于 选择 细 长 的 聚 类 ， 而 dns 将 选 
择 大 体 上 圆 形 的 聚 类 。 同 学 们 经 常会 对 最 大 和 最 小 的 说 法 感到 迷惑 ， 因 此 让 我 们 对 所 做 的 工 
作 再 多 说 几 句 。 在 合并 聚 类 算法 中 ， 我 们 一 直 在 合并 两 个 最 邻近 的 聚 类 ,而 定义 聚 类 之 间 的 距 
离 时 用 的 是 最 大 距离 。dmw 是 用 于 度量 聚 类 之 间 的 距离 ， 也 就 是 这 些 聚 类 中 那些 相互 距离 具有 
最 大 值 的 点 之 间 的 距离 。 











图 15-6 三 例 二 维 聚 类 问题 图 15-7 对 图 15-6 中 的 例子 使 图 15-8 对 图 15-6 中 的 例子 使 


《来自 文献 [14.3] ) 。 用 ai 的 结果 。 使 用 用 ds 的 结果 。 使 用 
使 用 经 过 允许 经 过 允许 经 过 允许 
15.2.2 kK 均值 聚 类 
当然 还 有 许多 其 他 聚 类 方法 ， 其 中 k 均 值 法 可 能 是 最 流行 的 ， 具 体 描述 如 下 : 
算法 : /均值 聚 类 


第 一 步 : 以 任意 的 方式 ， 将 样本 分 为 几 个 聚 类 。 或 者 ， 如 果 你 不 想 任意 划分 ， 选 择 一 个 
聚 类 中 心 的 任意 集合 ， 然 后 将 所 有 样本 都 划分 到 最 邻近 的 聚 类。 如何 选 择 聚 类 
中 心 与 问题 有 关 。 例 如 ， 如 果 对 彩色 空间 中 的 点 进行 聚 类 ， 其 中 的 三 个 维 是 红 、 
绿 、 蓝 ， 选 择 的 聚 类 中 心 可 以 均匀 分 布 在 3 维 空间 中 ， 或 者 使 聚 类 中 心 沿 着 点 
《0,0,0) 到 最 红 点 、 最 绿 点 、 最 蓝 点 的 连 线 。 
第 二 步 : 计算 每 个 聚 类 的 均值 。 
第 三 步 : 重新 分 配 每 个 样本 ， 使 它们 属于 具有 最 近 均 值 的 聚 类 。 
第 四 步 : 如 果 此 次 迭代 没有 发 生变 化 ， 就 退出 ; 否则 转 到 第 二 步 。 
图 15-9 显 示 的 是 ， 利 用 均值 法 对 Hough 累 加 器 数组 中 峰值 的 识别 结果 。 所 用 的 累加 器 数 
组 与 图 11-5 中 的 一 样 。 累 加 器 数组 中 的 每 个 位 置 ， 其 数值 等 于 该 位 置 处 样本 点 的 个 数 。 JE 
始 选择 的 误 类 中 心 ， 比 较 分 离 ， 并 且 远 离 实际 中 心 。k 均 值 算法 的 最 简单 实施 方法 ， 不 适合 这 
种 应 用 ， 因 为 累加 器 数组 中 有 很 多 位 置 只 包含 一 个 点 。 所 有 这 些 位 置 共 同 作用 ， 会 使 算出 的 
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均值 位 置 远离 我 们 要 找 的 峰值 位 置 。 解 决 办 法 是 将 数值 小 的 位 置 忽略 。 在 本 例 中 ， 任 何不 够 
三 个 点 的 位 置 都 被 忽略 。 其 他 启发 式 求解 方法 也 是 可 以 的 (参见 作业 15.4)。 

ISODATA 算 法 [15.2] 对 /均值 算法 进行 了 扩展 。ISODAITA 算 法 人 允许 选择 合适 的 聚 类 数目 ， 
并 且 在 规定 最 大 和 最 小 的 聚 类 规模 上 更 加 灵活 。 





图 15-9 两 聚 类 中 心 的 跟踪 路 径 ， 一 开始 它们 远离 Hough 累 加 器 数组 中 的 最 终 位 置 。 线 段 长 度 表 
示 从 当前 聚 类 中 心 到 下 次 迭代 估计 的 聚 类 中 心 的 运动 


15.3 最 优化 聚 类 方法 


试 斌 看， 能 否 通过 定义 并 求解 一 个 最 优化 问题 ， 从 而 实现 严密 、 正 规 的 聚 类 运算 。 

我 们 想 找 到 最 好 的 聚 类 过 程 。 也 就 是 说 ， 将 某 个 样本 点 分 配给 某 个 聚 类 ， 从 某 种 意义 上 
说 是 一 种 最 优 的 分 配 。 在 解决 这 个 问题 之 前 ， 首 先 要 寻找 一 种 判别 分 配 性 能 优 劣 的 标量 度量 
方式 。 类 内 散布 矩阵 提供 了 一 种 合理 的 度量 方式 。 


DD (15-14) 


其 中 是 聚 类 和 的 均值 (Wi). S, 提供 一 种 很 好 的 度量 方式 ， 它 表示 训练 集 样本 点 与 均值 
之 间 的 平均 偏差 。 然 而 ， 为 了 求 最 小 值 ， 需 要 用 一 种 关于 5,, 的 标量 度量 方法 ， 如 矩阵 的 迹 或 
行列 式 的 值 。 以 下 5,, 的 迹 


THES.) = Y YT - yee m= Y Yo- Ce- (15-15) 
i=l x€; i=l x€x, 


是 各 点 与 均值 的 偏差 的 平方 和 。 这 种 迹 准则 在 聚 类 算法 中 使 用 的 主要 缺点 是 ， 如 果 变 量 的 尺 
度 改变 ， 就 会 产生 不 同 的 结果 。 

当 坐标 轴 比例 变化 时 ，$S, 的 行列 式 的 值 是 恒定 的 ， 但 使 用 行列 式 时 要 假设 所 有 的 聚 类 有 
大 致 相同 的 形状 。 

一 旦 我 们 选择 了 最 优化 指标 ， 无 论 是 Tr(S,。)、det(S,。)， 还 是 其 他 指标 ， 为 了 找到 最 佳 聚 
类 效果 ， 都 需要 搜索 样本 点 所 有 可 能 的 聚 类 空间 。 因 此 ， 还 需要 考虑 优化 的 方法 问题 。 本 节 
我 们 只 介绍 “分 支 定 界 ”这 种 方法 ， 但 另 一 种 更 重要 的 模拟 退火 算法 ， 已 在 2.3.3 节 讨论 过 。 
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15.3.1 分 支 定 界 法 


假设 我 们 要 让 一 个 标量 准则 函数 最 小 化 ， 把 该 准则 用 J 表示 (为 什么 这 些 准 则 总 是 用 J 或 H 
表示 ? 你 知道 吗 ? 也 就 是 Hamiltonian 和 Jacobian 的 首 字母 )。 下 面 通 过 一 个 例子 说 明 这 种 优化 
方法 。 假 设 要 把 7[、7、 天 、Z 四 件 事 分 成 两 个 聚 类 ， 即 附 类 1 和 聚 类 2。 先 定义 一 些 标记 。 

1112 表 示 把 7、/、 天 归 到 育 类 1, LUHSUERSE2; 112X 表 示 把 上 、y7 归 到 聚 类 1， 天 归 到 聚 类 2 ， 
把 L 归 到 哪个 吝 类 还 不 确定 。 
假设 条 件 

分 支 定 界 技术 要 能 够 工作 需要 做 些 假 设 : 将 一 个 点 增加 到 一 个 聚 类 中 ， 总 是 会 使 代价 增 
加 ， 这 与 用 什么 样 的 决策 无 关 。 也 就 是 说 ,假设 已 经 算出 了 112X 的 代价 ， 即 J (112X)=a。 当 
我 们 对 L 作 决策 时 ， 代 价 就 会 增加 ， 即 7(1121)>a， 以 及 J (1122)>a。 

有 了 这 个 假定 ， 就 可 以 定义 分 支 定 界 搜索 算法 了 。 既 然 没 有 更 好 的 搜索 方法 ， 就 开始 按 
顺序 估计 各 种 可 能 性 ， 依 次 尝试 1XXX、11XX、111X、1111、1112、112X 等 。 按 这 个 方法 ， 
如 果 得 出 7 (12XX) 大 于 7 (1112) 的 结果 ， 那 么 再 评估 12XX 的 子 分 支 就 没有 意义 了 ， 因 为 , 在 
某 个 诊 类 中 增加 一 个 点 ， 只 能 使 准则 函数 代价 增 大 ， 我 们 只 能 得 到 比 已 有 值 更 高 的 结果 。 这 
就 是 分 支 定 界 法 的 本 质 。 这 种 方法 按 顺 序 对 列 出 的 所 有 可 能 进行 搜索 ， 但 是 要 记 住 找到 的 最 
低 值 和 是 以 上 面 的 假设 为 基础 对 搜索 树 剪 枝 。 


15.3.2 向 量 量化 


在 “向 量 量化 ”研究 领域 ， 给 计算 机 提供 “个 向 量 组 成 的 集合 ， 计 算 机 要 对 这 些 向 量 进行 
自然 分 类 。 换 种 说 法 ， 计 算 机 要 找到 由 c 个 参考 向 量 组 成 的 集合 ， 这 c 个 参考 向 量 是 n 个 向 量 的 
最 佳 表 示 。 如 果 觉 得 这 听 起 来 像 是 聚 类 ， 那 你 就 猜 对 了 ， 它 确实 就 是 聚 类 ， 所 以 我 们 这 么 称 
呼 它 。 


15.3.3 赢 者 全 得 算法 


MEERA (winner-take-all, BREFI) 最 初 是 由 那些 为 认 知 过 程 ( 称 之 为 “ 概 
括 ”) 建 立 模型 感 兴趣 的 研究 者 提出 的 ， 因 此 每 个 参考 向 量 或 聚 类 中 心 ， 用 模拟 神经 元 的 一 种 
数学 结构 来 表示 。 对 我 们 来 说 ， 没 有 必要 深入 了 解 神经 元 的 生理 学 模型 。 在 这 里 我 们 用 “ 聚 
类 中 心 ”这 个 名 词 ， 而 在 有 的 文献 中 可 能 用 的 是 “神经 元 ”。 

每 个 聚 类 中 心 w 都 有 一 个 相关 的 权 向 量 ，w;=[wj]"， 三 1, …, 4。 注 意 @ 向 量 描述 4 维 空间 中 
的 一 个 位 置 。 在 进行 府 类 时 ， 输 入 向 量 表示 为 [v1, v,,…, vul. EMRE (在 某 种 意义 上 ) 离 
输入 向 量 最 近 的 豪 类 中 心 。 也 就 是 


d, vj)&d(am,v,) Wkeb (15-16) 
假设 豪 类 中 心 a 是 赢家 。 然 后 ， 通 过 下 式 调整 a 的 权 值 ， 
Wo = Wo HEV — Wa, ) (15-17) 


其 中 标量 s 称 之 为 “学 习 参 数 ”， 该 参数 的 取 值 一 般 很 小 ， 数 量 级 为 0.01。 输 入 数据 以 随机 上 顺 
序 重复 向 算法 提供 。 对 整个 数据 集 轮 一 遍 称 作 一 代 (epoch)。 经 过 几 代 之 后 ， 聚 类 中 心 将 运 
动 到 数据 中 准确 代表 聚 类 的 位 置 。 








l^] 


286 RISE 
通常 ， 总 是 只 选择 出 一 个 聚 类 。 显 然 这 不 是 我 们 所 希望 的 ， 为 了 允许 有 时 也 能 选择 其 他 
的 豪 类 中 心 ， 增 加 一 种 称 为 “孤独 性 ”(loneliness) 的 参数 。 在 每 一 代 中 ， 没 有 赢得 任何 点 的 
RED, ， 稍 稍 棍 高 其 孤独 性 的 值 。 聚 类 中 心 的 选择 ， 很 大 程度 上 取决 于 京 类 中 心 之 间 的 偏 
ERE, STURN CR ARA. 
Kohonen 特 征 映 射 
Kohonen 特 征 映射 是 一 种 聚 类 算法 ， 它 是 对 赢 者 全 得 算法 的 扩展 。 在 这 个 算法 中 ， 假 设 在 
每 对 聚 类 中 心 之 间 都 存在 与 问题 有 关 的 拓扑 距离 (topological distance )。 那 么 ， 当 对 获胜 的 
聚 类 中 心 更 新 时 ， 该 拓扑 距离 意义 上 的 相 邻 点 也 跟着 更 新 。 主 要 的 聚 类 ，ow;， (获胜 者 ) ， 更 新 
方式 如 式 (15-17) 所 示 。 大 他 案 类 按 如 下 方式 更 新 ， 


0 =a; + F(n, 4, )(v-@;) (15-18) 


其 中 ，v 表 示 此 次 次 代 中 算法 的 输入 数据 ，F 是 di 的 某 个 不 增 标量 函数 ，di ERRUER K 
一 种 度量 ; 9 是 该 距离 的 最 大 值 。 这 个 算法 很 容易 编程 实现 ， 并 且 能 够 收敛 到 很 好 的 豪 类 结果 。 


15.4 结论 


我 们 已 经 注意 到 ， 不 同形 式 的 聚 类 算法 对 聚 类 结果 有 很 大 影响 。 已 经 有 人 做 了 一 些 工作 
[15.3]， 试 图 减少 对 算法 形式 的 依赖 性 ， 但 该 领域 仍然 没有 出 现 新 的 思想 。 

我 们 把 聚 类 方法 看 作 是 为 了 确定 一 致 性 的 一 类 方法 (例如 确定 Hough 变 换 中 的 峰值 ) 但 
不 是 利用 一 致 性 解决 其 他 问题 的 方法 。 

聚 类 方法 总 的 来 说 依赖 于 优化 方法 。 在 15.3 节 中 ， 用 使 散布 拭 阵 的 迹 最 小 化 的 方法 ， 以 获 
得 良好 的 襄 类 。 

当 必 须 计算 点 在 雄关 之 间 转 换 的 成 本 时 ， 用 分 支 定 界 法 来 加 快 解决 组 合 问题 。 


尽管 没有 用 神经 网 络 方面 的 术语 ，15.3.3 节 中 的 赢 者 全 得 策略 使 用 式 (15-17) (很 容易 让 
人 想到 梯度 下 降 法 )， 检 测 最 好 的 豪 类 中 心 。 
15.5 术语 

HRA | agglomerative clustering 


巴 塔 怡 里 亚 距离 Bhattacharyya distance 
分 支 定 界 | branch and bound 
Chernoff jE BS Chernoff distance 
RA cluster 
竞争 学 习 competitive learning 
距离 distance 
欧 几 里 德 距离 Euclidean distance 
最 远 邻 距离 furthest neighbor distance 
k 均 值 k-means 

' Kohorienth $t- Kohonen map 
马 哈 拉 诺 比 斯 距离 Mahalanobis distance 
最 小 生成 树 minimum spanning tree 
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最 近邻 距离 nearest neighbor distance 
合并 查找 union-find 
作业 15.1 


证 明 对 于 协 方差 相等 的 情况 ， 巴 塔 恰 里 亚 距 离 将 与 式 (15-7) 表示 的 距离 相同 。 
作业 15.2 


要 把 下 面 的 点 分 成 两 个 聚 类 : 

[0, OJ, (0, 1], [0, 2], [0, 3], [0, 4], [0, 5}, [0, 7], [0, 8]. 
画 出 这 些 点 并 标 出 最 小 生成 树 。 

用 ds, 找 出 并 确定 这 两 个 府 类 。 如 果 愿 意 可 以 画 出 图 来 。 

用 dns 找 出 并 确定 这 两 个 聚 类 。 

在 这 道 题 中 ， 可 以 用 其 他 距离 度量 方法 吗 ? 讨论 一 下 。 


作业 15.3 
在 你 的 图 像 目录 里 有 三 幅 图 像 ， 分 别 为 


facered.ifs 
faceblue.ifs 


以 及 (你 能 猜 出 来 吗 ? ) 

facegreen.ifs 

一 幅 彩色 图 像 包 含 红 、 蓝 、 绿 三 种 成 分 。 每 个 像素 可 以 用 8 位 红 、8 位 蓝 和 8 位 绿 的 数值 表 
未。 所以， 在 这 幅 图 中 可 能 存在 有 2”* 种 颜色 。 不 幸 的 是 ， 你 的 工作 站 (可 能 的 ) 只 用 8 位 数 表 
示 颜 色 ， 对 应 总 共 256 种 颜色 。 你 的 任务 是 (你 应 该 选择 接受 该 任务 )， 找 到 一 个 办 法 ,使 你 
的 工作 站 可 以 显示 图 像 中 的 所 有 颜色 。 

方法 : 用 一 些 育 类 的 算法 。 找 到 能 够 代表 颜色 空间 的 128 个 聚 类 ， 并 将 所 有 的 点 都 归 到 其 
中 某 个 类 别 。 然 后 建立 一 个 文件 ， 包 含 下 列 数据 : 


brightness value red green blue 
Example 
1 214 9 3 


意思 是 ， 如 果 一 个 像素 亮度 值 为 1， 那 么 它 就 应 该 以 红 214、 绿 9、 蓝 3 的 效果 显示 在 屏幕 
E. 这 样 的 像素 点 看 起 来 像 是 纯 红 。 于 是 ， 每 个 聚 类 中 心 就 用 一 种 颜色 来 表示 。 在 上 面 的 例 
子 中 ， 豪 类 中 心 1 是 几乎 纯 红 的 一 点 。 现 在 ,绘制 出 一 幅 图 像 ， 其 中 每 个 像素 的 亮度 值 等 于 最 
ULF AAV AE Bll A^ 


作业 15.4 


在 图 15-9 中 ， 显 示 的 是 一 个 Hough 累 加 器 。 在 CDROM 中 的 hough_ifs， 包含 同样 的 累加 器 
数组 。 通 过 聚 类 算法 提出 一 种 寻找 峰值 的 新 方法 。 (不 要 只 是 简单 地 找 出 最 亮点 ) ENE 
加 器 数值 的 平方 对 每 个 点 进行 加 权 ， 做 一 些 与 值 平方 的 指数 有 关 的 事 。 
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第 16 章 句法 模式 识别 


Ours is the age of substitution: 
Instead of language, we have jargon; 
Instead of principles, slogans; 
and instead of genuine ideas, bright suggestions. 
Crie Bentley 
本 章 讨论 另 一 种 完全 不 同 的 模式 识别 方法 ， 它 以 类 比 于 理解 语言 的 方法 为 基础 。 目 前 这 类 
方法 不 是 很 常用 ， 主 要 是 由 于 它们 对 噪声 和 畸变 十 分 敏感 。 但 对 于 某 些 特殊 的 应 用 场合 ， 这 种 
方法 就 比较 适合 用 。 建 议 读 者 对 这 方面 的 内 容 多 了 解 一 些 ， 从 而 认识 到 其 潜在 的 应 用 价值 。 
考虑 用 链 码 表示 的 边界 线段 。 链 码 中 的 每 个 环节 都 是 一 个 字符 ， 是 0~7 之 间 的 一 个 整数 ， 
所 以 边界 线段 就 用 一 个 字符 串 来 表示 。 句 法 模式 识别 的 工作 基础 是 ， 该 字符 串 与 形式 语言 
述 的 字符 串 具 有 类 似 之 处 。 


16.1 术语 


为 了 方便 进一步 的 讨论 ， 需 要 先 对 一 些 术语 进行 定义 。 这 些 定义 关系 到 对 字符 种 所 进行 
的 分 析 ， wea hd ene 分 析 一 样 。 

终止 符 就 是 一 个 单词 ， 如 “ 马 ”,，“ 土 豚 ”,， “教授 ”, “长 跑 ”,“ 等 级 ”。 终 止 符 也 可 以 是 
一 个 线段 、 图 像 的 一 部 分 或 者 其 他 特征 。 我 们 一 般 用 小 写 形 式 表 示 终 止 符 。 多 数 情况 下 ， 终 
止 符 用 单个 字符 表示 ， 如 “a” 或 “o"”， 但 是 在 英文 单词 例子 中 ， 终 止 符 一 般 是 单词 ， 而 不 
是 字母 。 

非 终 止 符 是 描述 文法 结构 的 字符 ， 如 “名 词 "， “动词 ”，“ 动 词 短 语 ”, “副词 短语 ”等 等 。 
我 们 一 般 用 大 写字 母 如 “A”、 或 大 写字 符 捉 如 “动词 短语 ”的 缩写 “VP”， 来 表示 非 终 止 符 。 

文法 ， 指 终止 符 集 合 、 非 终止 符 集 合 、 以 及 产生 字符 串 集 合 的 规则 集合 。 句 法 模式 识别 
的 关键 技术 成 分 ， 就 在 于 对 于 每 种 文法 ， 都 存在 一 种 机 器 (例如 ， 有 限 状 态 机 ， 下 推 自动 机 ， 
图 灵机 )， 该 机 器 能 识别 由 该 种 文法 产生 的 语言 。 

重 写 规则 ， 或 者 称 为 产生 式 ， 表 示人 允许 的 奉 代 规则 ， 式 中 包括 一 个 箭头 。 箭 头 左边 的 字 
符 串 可 以 被 右边 的 字符 串 代 替 。 

为 了 更 金 面 地 理解 句法 模式 识别 ， 可 以 参考 [16.5]。 

本 节 我 们 讨论 “传统 ”的 形式 语言 ( 像 chomsky[16.2] 中 定义 的 那样 )。 但 是 ， 当 前 的 研究 
仍 在 继续 ， 包 括 随机 文法 方面 [16.3] 的 研究 兴趣 ， 其 中 重 写 规则 有 相应 的 概率 。 如 果 要 了 解 关 
于 形式 语言 理论 的 更 全 面 信息 ， 可 以 参考 [16.7]。 

下面 是 关于 英语 句子 有 限 集 的 一 个 文法 例子 (参见 表 16-1): 

终止 符 : (5, FR, RR, KM, BE, M—, Biko, Ew} 

HIGH: S 

非 终止 符 : (S, VP, NP, N, V, ADV, ART, ADJ} 
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表 16-1 简单 文法 中 的 产生 式 ， 起 始 符 是 S 


S > NP VP 
VP > VP ADV 
VP > V 

NP > ADJ N 
NP > ADJ NP 
NP > ARTN 
N > E 

N > 教授 

V > 长 跑 

V > 睡觉 
ADV > 快速 的 
ADJ > 绿色 
ART > the 


在 文法 应 用 中 ， 对 任何 产生 式 都 可 以 按 任意 顺序 ， 使 用 任意 次 数 。 推 理 是 对 起 始 符 用 产 
生 式 获得 的 一 个 实例 ， 例 如 : 

S>NP VP>ART N VP-ART N V ADV» 该 教授 很 快 睡 着 了 。 
表示 该 文法 中 的 合理 推理 。 

关于 文法 有 几 点 值得 提 一 提 。 首 先是 文法 可 以 产生 无 限 多 的 字符 串 。 在 产生 式 的 左右 两 
边 有 相同 的 非 终止 符 ， 例 如 NP>ADJ NP, 可 以 很 清楚 的 表示 出 这 种 无 限 性 。 文 法 可 能 产生 的 所 
有 字符 串 的 集合 ， 称 为 该 文法 产生 的 语言 。 

对 于 每 种 文法 ， 都 有 对 应 的 自动 机 来 识别 由 该 种 文法 产生 的 语言 。 另 外 ， 建 立 识 别 机 的 
规则 是 比较 简单 直接 的 。 关 于 识别 ， 我 们 指 的 是 : 如 果 向 机 器 提供 一 个 用 该 语言 描述 的 字符 
事 ， 那 么 机 器 就 会 终止 ， 并 且 显示 “是 的 ， 这 个 字符 事 可 以 由 该 文法 产生 ”。 这 是 一 个 关键 点 。 
如 果 我 们 能 发 明 一 种 文法 ， 可 以 产生 出 一 组 特殊 的 字符 串 ， 那 么 我 们 也 能 够 建立 一 个 识别 机 ， 
而 且 对 我 们 人 类 来 说 ， 发 明 字符 串 生成 器 要 比 发 明 识 别 机 更 容易 。 


16.2 文法 类 型 
所 有 可 能 的 文法 可 以 分 成 四 大 类 ， 这 主要 取决 于 对 产生 式 类 型 的 限制 条 件 。 
16.2.1 0 型 文法 


在 0 型 文法 中 , 任何 重 写 规则 都 是 允许 的 。 产 生 式 左边 可 以 包含 任意 的 终止 符 和 非 终止 符 ， 
例如 下 面 的 产生 式 是 允许 的 : 
abAaBc>abAaCCc 
重申 一 下 该 式 的 意思 : 如 果 在 推理 过 程 中 ， 出 现 了 字符 串 abAaBc， 就 可 以 用 abAaCCc 来 代替 。 
例如 aardvabAaBcark 可 以 用 aardvabAaCCcark 代 替 。 | 
对 于 任何 0 型 文法 ， 都 存在 一 个 图 灵机 ， 可 用 来 识别 由 该 文法 产生 的 语言 。 


16.2.2 1 型 文法 


在 1 型 文法 中 ， 除 了 字符 捉 不 允许 缩短 之 外 ， 任 何 重 写 规则 都 是 允许 的 。 产 生 式 左 边 可 以 


O ”1 型 文法 有 时 候 也 称 为 “上 下 文 有 关 "， 但 我 们 不 使 用 这 一 短语 ， 因 为 有 的 人 会 感到 迷惑 。 
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包含 任意 的 终止 符 和 非 终止 符 。 因此 下 式 是 不 允许 的 ， 因 为 结果 字符 串 比 原来 的 短 ， 
abAaBc>aabCC 
但 是 下 式 是 允许 的 ， 
bAaBc>aabbCC 
对 于 任意 的 1 型 文法 ， 都 存在 一 个 LR 自 动机 ， 可 用 来 识别 由 该 文法 产生 的 语言 。 
16.2.3 2 型 文法 ? 
在 2 型 文法 中 ， 产 生 式 左边 只 可 以 包含 一 个 非 终 止 符 。 例 如 下 式 就 是 不 允许 的 ， 因 为 左边 
的 字符 数 超过 一 个 。 
Bc»aabCC 
但 是 下 式 是 允许 的 。 
B>aabbCC 


对 于 任意 的 2 型 文法 ， 都 存在 一 个 下 推 机 (pushdown automaton), ， 可 用 来 识别 由 该 文法 
产生 的 语言 。 下 面 我 们 介绍 一 个 2 型 文法 实例 ， 你 会 觉得 很 有 意思 。 


实例 :2 型 文法 表 16-2 2 型 文法 实例 的 产生 式 
终止 符 : {0, 1} s > 081 
非 终 止 符 : (S) s > 01 
ET S 


该 文法 会 产生 什么 样 的 语言 呢 ? 能 明显 看 出 来 吗 ? 结果 是 一 串 0 后 面 跟着 数目 相同 的 一 串 


1， 表 示 为 0"1"。 
本 章 只 详细 讨论 2 型 文法 和 3 型 文法 。 
16.2.4 3 型 文法 


在 3 型 文法 中 ， 产 生 式 左边 只 包含 一 个 非 终 止 符 。 右 边 部 分 只 包含 像 “a” 或 “aA” 形 式 
的 字符 串 ， 也 就 是 一 个 终止 符 ， 或 者 一 个 终止 符 后 面 跟着 一 个 非 终 止 符 。 
例如 ，B>aCCb 是 不 允许 的 ， 因 为 右边 字符 串 不 属于 允许 的 形式 。 但 是 B>aC 是 允许 的 。 


16.3 用 文法 结构 进行 形状 识别 
本 节 我 们 通过 几 个 例子 ， 说 明 句法 模式 识别 在 形状 识别 方面 的 应 用 。 
16.3.1 3 型 文法 


对 于 任何 3 型 文法 ， 都 存在 一 个 有 限 状态 机 (finite state machine, FSM), ， 可 用 来 识别 由 
该 文法 产生 的 语言 。 有 限 状 态 机 系统 ， 其 存在 的 状态 数 是 有 限 的 2， 用 大 写字 母 来 表示 ; 其 
输入 字符 数 也 是 有 限 的 ， 用 小 写字 母 或 数字 表示 。 有 限 状 态 机 的 运算 通过 形 如 6(4, a)=8 的 转 


日”2 型 文法 有 了 时候 也 称 为 “上 下 文 无 关 ” 文 法 。 
O “有 限 状 态 机 系统 存在 有 限 个 状态 。 虽 然 这 么 说 ， 我 们 不 敢 相信 。 


o 
~ 
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化 规则 集 来 控制 。 也 就 是 说 ， 当 机 器 处 于 状态 A 并 接收 输入 a 时 ， 就 转化 为 状态 B。 机 器 的 输出 
仅仅 依赖 于 它 所 处 的 状态 。 当 处 于 “接受 ”状态 时 ， 机 器 就 会 产生 一 个 输出 。 
从 文法 产生 识别 机 需要 两 步 。 首 先 ， 建 立 一 种 有 点 奇怪 的 状态 机 ， 称 为 不 确定 有 限 状态 
机 (nondeterministic finite state machine)。 然 后 ， 把 该 状态 机 转换 为 我 们 实际 要 建立 的 状态 
机 ， 对 描述 规则 ECG2 的 文法 进行 这 种 操作 。 首 先 ， 谈 一 点 心脏 的 跳动 情况 。 
正常 心跳 曲线 如 图 16-1 所 示 , 曲 线 由 几 个 波 组 成 ，P 波 是 “去 极 化 ”电信 号 ， 引 起 两 心房 发 生 收 
缩 ， 心 房 是 指 心脏 中 较 小 的 腔 室 。 心 房 发 生 跳 动 后 ，ECG 返 回 到 零 电 位 (isoelectric line), Hiden, 
一 段 较 短 的 时 间 ， 人 允许 心脏 中 较 大 的 腔 室 即 心室 充满 血液 。 然 后 心室 去 极 化 ， 产 生 了 QRS 信 
号 (用 R 表 示 )。 对 于 健康 心 胜 ， 信 和 号 重新 返回 到 零 电 位 ， 直 到 心室 重新 极 化 产生 7 波 为 止 。 用 夸 
示 。 于 是 进入 另 一 个 零 电 位 周期 ， 直 到 P 波 出 现 ， 用 P 表 示 。 因 此 ， 健 康 心脏 产生 的 符号 序列 类 似 
为 piritiipiritiipiritii (永远 重复 ， 或 者 持续 90 年 左右 )。 图 16-2 到 16-5 表 示 心 脏 出 问题 的 几 种 情况 。 
当然 ， 这 个 问题 简化 得 有 点 过 度 ， 但 是 它 为 我 们 进行 研究 提供 一 个 有 用 的 实例 。 表 16-3 
表示 产生 正常 心跳 的 文法 。 


p qup spi HG SER EE 
A 
GHEDTPBPPRPE 


UJ 
E 
Ww 





图 16-1 正常 心跳 





图 16-2 罕 性 心律 失常 : 在 T 和 P 之 间 的 图 16-3 心房 额 动 : 出 现 未 受 控制 的 P 波 , 


间隔 时 间 不 够 ，piritip pipipirpipipir 


HEC 


HILDA 
e. 


Hirn 


HEHIBAH 


H 
Li 


-_ 38 89808 S888: 
batato ei 


teeee TTT 


$93 eee H 
3 shone oes: 


3 EHE tases ses 
e Sesescss 


$e eee see: 





图 16-4 房 宝 传导 阻 滞 : P 与 R 之 间 出 图 16-5 心肌 梗塞 : R、T 之 闻 信 号 没 
现 延迟 ，piiritipiiiritip 有 回 到 零 电 位 ，pirtii 


为 了 建立 我 们 所 要 的 机 器 ， 称 为 M， 需 要 遵循 以 下 的 步骤 : 文法 中 的 每 个 非 终止 符 成 为 机 器 


O ECG 是 指 心电图 。 我 们 熟悉 的 “EKG” 来 自 心电图 的 德 文 拼写 。 
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的 一 个 状态 。 另 外 还 要 有 一 个 附加 状态 ， 记 为 G0。 然后 ， 对 于 每 个 形 如 A>a8B 的 产生 式 ，、 构 造 
形 如 6(4, a)=B 的 状态 变化 形式 。 对 每 个 形 如 A>a 的 产生 式 ， 构 造形 如 6(4, a)=Q 的 状态 变化 形 
式 。 最 后 ， 如 果 a 是 任意 的 输入 符号 ， 那 么 6(Q, a)=p， 其 中 9 是 表示 “ 空 ” 的 符号 。 

表 16-3 产生 正常 心电图 的 3 型 文法 


V VN NN VV NN M 
~ 
"n 


dHmoommuoon»u 











机 器 的 状态 变化 描述 如 表 16-4 所 示 ， 该 机 器 识别 由 该 文法 所 产生 的 语言 。 
表 16-4 识别 ECG 的 不 确定 FSM 











X5, p)=A OA, i)=C XC, =D 
&D, i)-E XE, =F &F, i)-G 
ôG, i)={H, Q} dH, i)={S, Q} 5Q.)=¢ 

















你 明白 为 什么 称 为 “不 确定 ” 吗 ? ZOMPHLE Ce A MINOT FSA, TERA TARE 
为 的 情况 下 又 可 以 从 H 变 为 5s。 意 思 并 不 是 说 它 有 时 候 到 0 ， 有 时 候 却 到 5， 而 是 说 它 两 种 情 
况 都 到 ， 这 种 现象 在 实际 物理 机 器 上 是 不 可 能 发 生 的 。 

为 了 将 这 个 结果 转化 为 可 以 实现 的 情况 ， 按 如 下 方式 构造 机 器 M'。 

新 机 器 的 状态 是 原 机 器 状态 的 所 有 可 能 的 子 集 ， 包 括 g (但 不 是 所 有 的 状态 都 必须 用 到 )。 
在 这 个 例子 中 ， 有 2 个 这 样 的 状态 。 这 些 状态 用 原始 状态 名 字 的 列表 加 方 括号 表示 。 如 果 变 
化 形式 的 左边 与 状态 集合 运算 值 有 关 ， 那 么 新 状态 就 会 成 为 原始 机 器 曾经 发 生 过 的 状态 的 并 
集 ( 哇 ， 足 够 棘手 的 吧 ? )。 新 机 器 的 接受 状态 ， 是 与 2 有 关 的 任何 状态 ， 或 者 曾经 是 原 机 器 
中 的 任意 接受 状态 。 新 机 器 的 接受 状态 是 包含 原始 机 器 接受 状态 的 所 有 状态 。 这 一 过 程 产生 
出 如 表 16-5 和 图 16-6 所 示 的 物理 上 可 实现 的 机 器 。 在 这 个 例子 中 ， 尽 管 新 机 器 存在 2? 种 状态 ， 
但 只 用 到 其 中 的 几 个 状态 。 

表 16-5 确定 性 有 限 状态 机 














&I5]. p)=[A] &IA], i=[O] &tC]. n=[D] 
ŠID], )-LE] AE]. )=[F] IF], )={G] 
AG], )=[H, Q] d(H], D=[S, Q] KO], D=9 
IH; Q1,i)=(5] &IS, Q1, =A 
这 样 ， 我 们 就 设计 出 了 一 个 心率 识别 机 。 和 希望 你 已 经 观察 到 ， 我 们 只 列举 了 “正常 ” 情 


况 、 或 者 输入 是 所 预期 的 情况 会 发 生 的 事 。 现 在 ， 轻 松 一 下 ， 对 状态 图 16-6 做 些 修改 ,让 它 
包括 病态 情况 。 例 如 ， 可 以 增加 6 (D, D=Y， 这 会 产生 一 个 报警 状态 ， 表 明 病 人 可 能 患 有 心肌 
梗塞 〈 或 者 主动 脉 夹 层 ， 或 者 其 他 严重 疾病 )。 
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接 下 来 是 关于 3 型 文法 的 另 一 个 例子 。 该 例子 中 使 用 了 链 码 。 但 是 ， 首 先 介绍 另 一 种 描述 
规则 语言 的 方法 : 正则 表达 式 。 

给 出 终止 符 集合 7， 正 则 表达 式 是 由 7 中 连续 元 素 以 及 符号 “*” (表示 重复 ) 构成 的 字符 
串 ， 用 圆 括号 注 明 运 算 的 顺序 ， 用 逗号 表示 逻辑 “或 ”运算 。 

本 节 中 ， 我 们 将 用 到 终止 符 {0, 1, 2, 3, 4, 5, 6, 7} ( 链 码 的 元 素 )。 

图 16-7 显 示 的 是 ， 由 (0, 7)(0, 7)*(7, 6)(7, 6)(61, 72)(1, 2)(1, 2)0(0, 1)* 产 生 的 语言 的 一 个 元 
素 。 图 16-8 所 示 的 有 限 状 态 机 可 识别 由 该 正则 表达 式 产 生 的 所 有 字符 串 。 





376 图 16-6 识别 正常 ECG 的 确定 性 有 限 状 态 机 。 图 16-7 与 链 码 0776612100 对 应 的 边界 线段 
圆圈 内 表示 接受 状态 





图 16-8 不 确定 FSM 的 状态 图 。 不 确定 FSM 识 别 上 面 规则 表达 式 产生 的 字符 申 。 被 去 号 隔 
开 的 两 个 数字 ， 表 示 其 中 任何 一 个 都 会 引起 相应 的 转化 。 任 何其 他 输入 引起 的 转 
化 ， 将 会 产生 错误 的 状态 ， 图 中 没有 显示 出 来 《其 中 数据 经 过 修改 。-_ 译 者 注 ) 


在 这 个 例子 中 ， 显 示 了 如 何 用 链 码 来 表示 边界 线段 ， 以 及 用 相同 的 机 器 如 何 识别 出 可 能 
无 限 多 种 类 似 的 边界 线段 。 
许多 图 像 表 示 方 法 用 的 是 字符 串 ， 而 不 是 链 码 ， 包 括 诸如 曲线 编码 [16.4，16.8]。 


16.3.2 2 型 文法 


尽管 3 型 文法 实现 起 来 很 简单 ， 像 一 个 简单 的 有 限 状 态 机 ， 只 用 双 稳 态 触发 器 和 组 合 逻辑 
就 可 以 建立 ， 但 它 的 通用 性 不 够 ， 还 不 足以 解决 许多 问题 。 在 有 的 应 用 中 ， 利 用 其 他 类 型 的 
文法 可 能 更 加 合适 。 本 小 节 中 ， 介 绍 利用 2 型 文法 进行 形状 识别 的 两 个 实例 。 
染色 体 识别 

下 面 的 例子 ， 摘 自 Gonzale2 和 Thomason[16.6] 的 著作 ， 最 开始 时 来 源 于 Ledley 等 [16.9] 的 
著作 ， 它 说 明了 上 下 文 无 关 文 法 在 染色 体 类 型 识别 中 的 应 用 。 

该 文法 中 的 终止 符 是 边界 线段 ， 用 a、b、c、d、e 表 示 ， 如 图 16-9 所 示 。 在 识别 框架 中 ， 
可 以 称 这 些 为 边界 基 元 (boundary primitive )。 一 条 染色 体 由 a-e 组 成 的 符号 序列 来 描述 。 注 意 
除了 符号 4 (和 和 b 一 一 译 者 注 ) 存在 两 种 方式 外 、 其 他 符号 都 是 有 方向 性 的 。 

通过 该 文法 可 以 识别 出 两 种 类 型 的 染色 体 ， 端 着 丝 粒 (telocentric) 染色 体 和 亚 中 着 丝 粒 
(submedian) 染色 体 ， 就 像 图 16-10 中 显示 的 那样 。 每 种 都 可 用 一 个 边界 线段 序列 来 描述 。 下 
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面 的 文法 (如 表 16-6 所 示 ) 将 产生 这 两 种 染色 体 中 的 任意 一 种 。 











a) b) 

图 16-9 句法 模式 识别 中 用 到 的 基 元 边界 线段 。 图 16-10 a) 亚 中 着 丝 粒 染色 体 b) 端 着 丝 粒 

线段 的 大 小 及 方向 是 很 重要 的 染色 体 (根据 [16.6] 重 画 ) 

表 16-6 生成 染色 体 图 像 的 产生 式 
亚 中 着 丝 粒 端 着 丝 粒 

S > S1 S> > S2 

SI > AA $2 > BA 

A > CA A > AC 

A > DE A > FD 

B > bB B > Bb 

C - Cb C > bC 

D > Db D > bD 

E > cD F > De 

B > e C > b 

C > d D > a 





这 些 产 生 式 并 不 是 随意 发 明 出 来 的 。 包 括 起 始 符 S 的 前 两 个 产生 式 ， 控 制 产生 染色 体 图 像 
的 类 型 ，S1 表 示 亚 中 着 丝 粒 染色 体 ，52 表 示 端 着 丝 粒 染色 体 。 另 外 ， 其 他 符号 表示 染色 体 边 
界 的 成 分 。 也 就 是 说 ，A 会 引起 双 辟 产生，B 会 导致 底部 产生 ，C 使 侧面 产生 ，D 使 胎 膊 产生 ， 
E 产 生 右 侧 ，F 产 生 左 侧 。 
形状 文法 

最 后 一 个 例子 来 自 参考 文献 [9.2]， 用 形状 文法 [15.57] 产 生 并 且 识别 纹理 。 在 形状 文法 中 ， 
不 管 是 终止 符 集合 V+， 还 是 非 终 止 符 集 合 V.， 都 是 形状 的 集合 ， 并 且 受 到 Vin Vi=9 的 限制 。 

在 这 个 例子 中 ,终止 符 集合 只 包含 着 一 个 元 素 ， 即 六 边 形 : 


Q 


同样 ， 非 终止 符 也 只 包含 一 个 元 素 ， 即 一 个 点 : 

产生 式 描 述 了 如 何 按 与 终止 符 的 关系 扩展 非 终止 符 ， 以 产生 其 他 的 形状 。 例 如 ， 一 个 点 
与 六 边 形 的 关系 ， 用 点 正 对 着 六 边 形 的 某 一 边 表示 ， 那 么 在 该 点 所 在 的 位 置 可 以 用 产生 式 复 
制 六 边 形 。 很 多 这 样 的 规则 就 构成 了 文法 ， 图 16-11 中 显示 出 两 条 规则 。 

Olstad 和 Torp[16.10] 利 用 句法 模式 识别 ， 扩 展 了 主动 轮廓 方法 的 性 能 ， 最 近 有 一 篇 文章 利 
用 这 些 方法 进行 成 像 分 析 ， 识 别 遮挡 情况 。 


o 
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图 16-11 用 来 产生 六 边 形 纹理 的 两 条 产生 式 (根据 [9.2] 重 画 ) 


2 型 语言 识别 机 
2 型 语言 利用 下 推 自动 机 进行 识别 。 下 推 自动 机 是 一 种 有 限 状 态 机 ， 只 是 在 下 压 堆栈 的 形 
式 上 增强 为 无 限额 存储 器 。 这 是 一 个 后 进 先 出 的 存储 器 。 在 该 存储 器 内 保存 信息 的 操作 称 为 


” 压 入 (PUSH)， 读 出 栈 顶 信息 的 操作 称 为 弹出 (POP)。 注 意 弹出 操作 要 做 两 件 事 情 : 读 出 存储 


的 信息 ， 并 改变 存储 单元 ( 栈 顶 地 址 一 一 译 者 注 )， 以 便 下 一 个 弹出 操作 能 够 返回 栈 顶 下 面 的 
那个 值 。 

为 了 实现 下 推 自动 机 ， 我 们 把 栈 顶 符号 加 到 状态 变换 规则 中 去 。 也 就 是 6 (A, i, 站 =(C, q), 
意思 就 是 “如 果 状 态 为 4， 输 入 为 i， 栈 顶 符号 为 j， 那 么 状态 就 转变 为 C， 并 且 将 元 素 q 压 入 堆 
栈 。 利 用 这 种 自动 机 ， 就 可 以 识别 与 16.2.3 节 例子 所 示 类 似 的 语言 ， 其 中 1 的 个 数 必 须 与 0 的 
个 数 相等 。 原 理 很 简单 : 每 当 我 们 看 到 一 个 0， 就 向 堆栈 中 压 入 一 个 0， 堆 栈 状 态 保持 不 变 。 
当 我 们 看 到 第 一 个 1 时 ， 改 变 状态 并 弹出 堆栈 。 随 后 ， 每 当 看 到 一 个 1， 就 弹出 堆栈 。 如 果 看 
到 另 一 个 0， 就 进入 错误 状态 。 如 果 没 有 进入 错误 状态 ， 则 在 堆栈 为 空 时 ，1 的 个 数 与 0 的 个 数 

染色 体 识 别 和 ECG 识 别 两 个 例子 ， 很 好 地 说 明了 句法 模式 识别 研究 者 所 关心 的 主要 问题 。 
这 两 个 系统 都 假设 存在 一 个 识别 机 ， 能 够 识别 像 T 波 这 样 的 基 元 。 隐 含 假设 了 这 种 基 元 预 处 理 
器 是 十 分 简单 的 ， 或 许 就 是 一 个 抗 噪声 的 模板 匹配 器 。 在 实际 中 ， 这 一 点 很 难 做 到 ， 而 且 可 
能 要 求 所 设计 的 文法 本 身 具有 一 定 的 噪声 容忍 度 。 读 者 可 以 查找 参考 文献 [16.5,16.6]， 以 便 更 
详细 地 了 解 句法 模式 识别 方法 。 


16.4 结论 


除了 对 终止 符 进 行 分 类 可 能 涉及 优化 方法 或 者 一 致 性 问题 外 ， 句 法 模式 识别 与 优化 方法 
或 者 一 致 性 无 关 。 需 要 用 低层 处 理 算法 从 图 像 中 抽取 这 些 特征 。 这 其 实 是 句法 模式 识别 的 主 
要 缺点 。 因 为 该 识别 方法 依赖 其 他 算法 提供 输入 ， 在 以 下 两 种 情况 下 可 能 会 引起 识别 失败 。 
由 于 存在 噪声 模糊、 遮挡 以 及 其 他 无 法 预料 的 变化 ， 符 号 识别 机 会 因此 而 失效 。 另 一 方面 ， 
只 是 由 于 目标 的 特征 可 能 与 文法 所 设计 的 结果 有 点 出 入 。 它 可 能 看 起 来 与 文法 所 设计 的 结果 
相似 ， 但 是 没有 一 种 简单 的 方法 可 以 将 “相似 性 ”综合 到 一 种 文法 中 去 。 


16.5 术语 
推理 derivation 
有 限 状态 机 finite state machine, FSM 
文法 grammar 


非 终止 符 nonterminal symbol 
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ETC primitive 
产生 式 production 
下 推 自动 机 pushdown automaton 
正则 表达 式 regular expression 
正则 文法 regular grammar 
形状 文法 shape grammar 
终止 符 terminal symbol 
作业 16.1 


证 明 图 16-10a 中 ， 表 示 亚 中 着 丝 粒 染色 体 的 字符 串 ， 可 以 由 表 16-6 中 的 文法 法 产生 。 


作业 16.2 
早先 曾 声明 表 16-6 中 的 文法 为 2 型 文法 。 证 明 这 一 声明 是 否 正确 。 
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第 17 章 应 ”用 


Example isn't another way to teach, it is the only way to teach 
爱 尔 伯 特 . 爱 因 斯 坦 
从 天 文学 [17.44] 到 工业 检测 ， 到 自动 目标 识别 ， 机 器 视觉 得 到 了 一 系列 广泛 的 应 用 。 要 
详细 介绍 与 这 些 应 用 相关 的 所 有 内 容 是 不 太 可 能 的 。 本 章 为 读者 选择 的 内 容 ， 不 像 是 一 篇 教 
材 正 文 ， 而 更 像 是 带 注解 的 参考 资料 。 我 们 将 简要 介绍 几 个 应 用 实例 ， 并 且 提 供 一 些 参考 文 
献 。 在 下 一 章 ， 将 选择 自动 目标 识别 这 个 应 用 领域 ， 进 行 比较 详细 的 介绍 。 


17.1 多 谱 图 像 分 析 


多 光谱 图 像 分 析 的 策略 ， 是 把 空间 表示 和 光谱 表示 合 二 为 一 。 多 谱 图 像 分 析 中 每 一 个 像 
素 对 应 一 个 向 量 ， 该 向 量 是 各 度量 值 的 有 序 集 合 。 一 个 明显 的 例子 就 是 颜色 ， 颜 色 值 的 向 量 
组 成 元 素 为 [r, 8, b]， 关 于 颜色 处 理 的 文献 有 很 多 。 多 数 已 发 表 的 工作 致力 于 对 图 像 质量 的 改 
善 ， 只 有 最 近 的 少数 论文 研究 颜色 在 识别 方面 的 应 用 [17.14，17.18，17.53，17.58]。 

我 们 学 过 的 处 理 单 变量 图 像 的 方法 ， 例 如 用 马尔 科 夫 随机 场 方法 去 除 噪声 干扰 ， 同 样 也 
可 用 于 多 谱 图 像 [17.3]。 通 常 ， 表 示 像 素 时 只 需 用 向 量 代替 标量 即 可 。 
17.2 光学 字符 识别 

尽管 我 们 比较 喜欢 这 一 话题 ， 并 且 存 在 大 量 致 力 于 这 方面 研究 的 论文 (在 这 一 段 ， 我 们 
只 引用 其 中 的 儿 篇 参考 文献 [16.1，17.32，17.64] ) ， 但 由 于 篇 幅 所 限 ， 我 们 不 能 详细 讨论 相关 
的 方方面面 。 光 学 字符 识别 中 的 第 一 个 问题 是 自动 分 区 (zoning) [17.28] 问 题 ， 即 确定 文本 
在 页 面 的 位 置 [17.37]。 很 多 光学 字符 识别 方面 的 论文 ， 是 将 我 们 学 过 的 图 像 技术 用 于 某 种 特 
殊 的 应 用 场合 ， 例 如 细 化 技术 、 上 骨架 计算 技术 等 。 


17.8 自动 诊断 和 辅助 诊断 


机 器 视觉 技术 在 医学 方面 的 应 用 (和 需求 ) 逐渐 增多 。Tagari 等 [7.40] 为 了 了 解 心脏 组 成 
的 拓扑 结构 ， 利 用 Voronoi 图 ， 提 出 一 种 基于 图 的 表示 方法 ， 使 二 维 图 像 和 三 维 视图 联系 起 来 。 
利用 核 医 学 图 像 [17.11] 以 及 多 幅 常规 z* 光 图 像 [17.521， 计 算 射 出 率 (ejection fraction), Hg 
是 一 次 心跳 射出 的 血液 量 与 心室 总 血 量 (尤其 是 左 心室 ) 之 比 ， 这 些 工 作 引 起 了 众多 研究 人 
员 的 关注 。 

有 的 表达 方式 适合 描述 身体 的 特定 部 位 及 运动 。 例 如 谐 波 表示 在 描述 心脏 方面 得 到 了 广 
泛 应 用 [8.40]。Gong 和 Kulikowskif13.16] 利 用 规划 策略 (planning strategy) 识别 MRI 图 像 的 
特征 。 

热 成 像 在 20 世 纪 70 年 代 初 期 十 分 火爆 ， 因 为 人 们 认为 ， 可 借助 热 像 识别 诊断 类 位 乳腺 阅 
这 样 的 疾病 。 然 而 ， 这 股 热潮 很 快 就 冷却 下 来 ， 因 为 越 来 越 清楚 ， 这 种 方法 的 精度 不 够 高 ， 
而 且 误 报 率 太 高 。 因 此 ， 尽 管 在 工业 和 军事 方面 的 很 多 领域 ， 热 成 像 得 到 了 广泛 应 用 ， 但 在 
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医学 方面 的 应 用 却 在 下 降 [17.27]。 近 年 来 ， 发 表 了 一 些 论文 和 研究 成 果 ， 对 红外 热 成 像 在 医 
学 方面 的 应 用 重新 进行 了 评价 ， 原 因 在 于 如 下 三 个 方面 ' 1) 红外 技术 有 了 很 大 进展 。 特 别 是 
军用 夜 视 系统 的 发 展 ， 使 新 一 代 红外 摄像 机 的 精度 得 到 很 大 提高 。2) 图 像 处 理 能 力 更 强 。 包 
括 图 像 增 强 、 存 储 和 分 割 等 方面 的 先进 技术 ， 在 红外 图 像 处理 方 面 已 经 得 到 了 有 效应 用 。3 ) 
对 红外 图 像 所 隐 含 的 人 体 病 理 生理 学 方面 的 知识 ， 我 们 有 了 更 深入 的 认识 。 


17.4 检测 和 质量 控制 


人 们 猜想 制造 业 的 检测 领域 应 该 对 机 器 视觉 更 感 兴趣 ， 因 为 企业 利用 最 新 技术 可 以 获得 
竞争 优势 。 然 而 ， 事 实 并 非 如 此 。 例 如 ， 在 2000 年 春季 ， 美 国 自然 科学 基金 会 举办 了 一 次 会 
议 ， 讨 论 如 何 才能 使 企业 和 大 学 合作 的 效率 更 高 一 些 。 超 过 200 位 机 器 视觉 公司 的 总 裁 (大 部 
分 与 制造 业 检测 有 关 ) 都 被 邀请 参加 会 议 ， 但 结果 却 只 有 不 到 30 估 出席。 为 什么 看 起 来 如 此 
重要 的 会 议 主题 ， 却 只 有 这 么 少 的 人 出 席 呢 ? 

可 能 的 答案 是 ， 多 数 机 器 视觉 公司 规模 都 还 很 小 。 但 是 也 有 人 会 间 : “这 么 多 的 机 器 视觉 
公司 ， 为 什么 规模 都 这 人 么 小 呢 ? ”“。 我 们 认为 该 领域 具有 的 独特 性 才 是 问题 的 答案 所 在 。 建 立 
一 个 机 器 视觉 公司 ， 需 要 的 资金 投入 实际 上 很 少 。 只 需 有 一 台电 脑 ， 一 些 便宜 的 硬件 和 几 个 
比较 好 的 点 子 ， 就 可 以 加 入 到 这 个 行业 中 。 如 果 你 不 是 要 进入 硬件 生产 领域 、 或 者 是 复杂 的 
专业 化 生产 领域 ， 你 的 公司 就 可 以 运转 起 来 ， 而 不 需要 风险 投资 。 在 机 器 视觉 行业 ， 公 司 并 
不 需要 很 大 的 规模 。 由 于 公司 规模 较 小 ， 因 此 受 市 场 驱动 的 影响 就 较 大 ， 也 往往 看 不 到 基础 
性 研究 在 短期 内 会 给 他 们 带 来 些 什 么 帮助 。 有 时候 他 们 是 对 的 ! 

尽管 如 此 ， 在 工业 检测 方面 还 是 做 了 一 些 基础 性 的 研究 。 例 如 ， 坐 标点 对 准 [17,61]、 自 
动 特征 抽取 [17.62]、 重 釜 零件 识别 [17.21]、 以 及 视觉 技术 在 装配 方面 的 应 用 [17.43]。 

一 个 公司 ， 如 果 其 制造 业务 的 流水 线 生产 已 经 有 很 多 年 了 ， 很 多 产品 设计 可 能 还 没有 输 
入 到 CAD 数 据 库 中 。 逆 向 工程 学 (reverse engineering) 是 一 个 站 传统 设计 到 现代 数据 库 的 过 
程 。 逆 向 工程 学 需要 读 和 人 蓝图 [17.13] ， 也 需要 实际 产品 的 CAD 模 型 及 数据 库 ， 进 而 需要 从 深 
度数 据 (range data) 抽取 几何 基 元 特征 [17.40] ， 例 如 球体 、 圆 柱 体 、 锥 体 等 ， 这 些 特 征 也 可 
以 从 其 他 坐标 测量 机 得 到 。 

显微镜 技术 是 机 器 视觉 起 重要 作用 的 另 一 个 应 用 领域 。 例 如 ， 宫 颈 涂 片 检查 (Pap smear) 
经 常 采用 自动 显示 系统 ， 而 且 统计 白细胞 数目 也 由 计算 机 来 完成 。 利 用 外 荧光 (epi- 
fluorescence) 显微镜 技术 [14.76] 跟 踪 管状 分 子 ， 这 是 最 近 发 表 的 研究 成 果 。 

. 许多 工业 零件 存在 镜面 反射 , 通过 使 用 多 个 光源 可 以 得 到 它们 的 形状 和 粗糙 度 特 征 [17.17， 
17.56]. 

无 论 如 何 ， 不 管 机 器 视觉 的 应 用 背景 是 什么 ， 都 需要 建立 系统 、 建 立 传感器 模型 、 并 生 

成 假设 [17.73] 。 


17.5 安全 检测 和 入 侵 者 识别 


检测 入 侵 者 需要 进行 身份 识别 ， 要 综合 应 用 各 种 线索 [17.6] 包 括 人 脸面 部 特征 。 关 于 人 脸 
识别 ,研究 人 员 做 了 大 量 的 研究 [17.26] ， 限 于 篇 幅 ， 我 们 在 此 就 不 讨论 了 。 


17.6 机 器 人 视觉 
机 器 人 视觉 用 到 了 我 们 学 过 的 各 种 知识 。 首 先 摄像 机 标定 [4.37] 是 一 个 重要 的 组 成 部 分 ， 
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而 机 器 人 不 仅 需要 识别 ， 还 需要 导航 ， 因 此 需要 建立 地 图 [17.4，17.60]。 最 近 Sogo 等 [17.54] 
专注 于 生成 定性 的 地 图 ， 其 中 乱入 了 称 作 INFRONTOE 的 信息 ， 而 不 需要 标定 过 的 位 置 数据 。 

在 工业 自动 化 方面 ， 尤 其 是 利用 机 器 人 处 理工 业 零件 时 ， 很 多 应 用 场合 都 离 不 开 “ 稳 定 
状态 ”这 一 概念 ， 这 可 以 通过 一 个 实例 进行 说 明 。 如 图 17-1 所 示 ， 是 我 们 可 能 看 到 的 一 枚 美 
分 硬币 的 三 幅 图 像 。 显而易见 ， 如 果 我 们 看 到 图 H 或 图 T， 很 可 能 就 认 出 这 是 一 枚 美 分 硬币 。 
而 对 于 图 E， 虽 说 有 可 能 是 硬币 ,但 看 起 来 太 不 像 了 ， 以 致 于 任何 “ 合 平 情理 ”的 机 器 视觉 系 
St (包括 人 类 本 身 ) 都 会 拒绝 它 是 一 枚 硬币 (如 果 不 提供 其 他 信息 的 话 )。 这 样 一 来 ， 一 枚 美 
分 硬币 只 存在 两 种 “稳定 状态 ”。 机 器 视觉 系统 的 数据 库 中 ， 可 能 存在 硬币 的 两 种 模型 ， 即 
PENNYH 和 PENNYT， 并 把 它们 各 自 当 作 单 独 的 目标 来 看 待 ， 而 不 是 针对 一 枚 美 分 硬币 的 所 
有 可 能 的 视图 进行 处 理 。 当 然 ， 这 个 “稳定 状态 ”的 概念 只 针对 像 硬币 这 样 的 物体 ， 他 们 只 
有 几 种 可 能 的 外 形 。 这 种 外 形 常 常用 “外 观 ”(aspect) 这 个 术语 来 描述 (参见 12.6 节 ， 其 中 
比较 详细 地 讨论 了 外 观 图 ， 这 是 一 种 表示 物体 所 有 可 能 外 观 的 数据 结构 ) 


林肯 头 纪念 
像 画面 画面 


图 H 图 E 图 T 


图 17-1 一 枚 美 分 硬币 的 三 种 视图 。 中 间 那 幅 图 尽管 可 能 是 硬 
币 的 一 幅 图 像 ， 但 看 起 来 太 不 像 了 ， 应 该 抛弃 


可 以 对 稳定 性 思想 进行 推广 [17.71] ， 考 虑 视点 的 可 能 性 和 稳定 性 ， 包 括 为 了 获得 下 一 个 
视图 而 确定 最 佳 位 置 [9.93]， 作 者 称 这 个 过 程 为 “自主 探测 ”， 这 是 主动 视觉 的 一 种 。 利 用 主 
动 视觉 进行 跟踪 的 另 一 种 方法 ， 使 用 所 有 运动 都 是 平面 内 运动 的 假设 [17.5]。 


17.6.1 机 器 人 外 科 手 术 


对 精确 定位 要 求 较 高 、 而 人 类 又 做 不 到 的 应 用 场合 ， 机 器 人 辅助 外 科 手 术 变 得 越 来 越 重 
要 。 常 见 的 应 用 场合 就 是 脑 外 科 手 术 方面 ， 头 部 需要 严格 并 精确 固定 不 动 [17.23，17.34， 
17.38]。 在 机 器 人 辅助 外 科 手 术 中 ， 必 须 将 三 维 医学 图 像 (MRI 或 CT) 与 二 维 X 光 投影 进行 匹 
配 。 这 可 以 表示 为 从 二 维 图 像 估计 三 维 目 标的 空间 姿态 [17.36]。 最 近 机 器 人 外 科 手术 方面 的 
成 就 ， 包 括 跳 动心 脏 上 的 冠状 动脉 搭桥 术 [17.91， 胃 外 科 手 术 [17.7] 和 胆 琳 外 科 手 术 [17.24]。 


17.6.2 机 器 人 驾驶 


机 器 人 导航 包括 在 道路 内 外 导航 ， 以 及 识别 和 避 障 [17.74]。 利 用 各 种 成 像 模式 [17.20， 
17.65，17.72] 以 及 地 面 毫 米 波 雷 达 [17.35]， 从 正在 行驶 的 车 辆 上 能 够 检测 道路 边缘 。 

再 说 一 次 ， 机 器 人 视觉 实际 上 是 一 门 系统 科学 。 它 综合 了 这 本 书 其 他 章 中 学 过 的 各 种 技 
术 。 例 如 ， 光 流 可 用 于 分 析 摄 像 机 运动 ， 并 且 能 够 使 摄像 机 锁定 目标 [17.49]。Grosso 和 
Tistarlli[13.18] 将 立体 视觉 和 运动 结合 起 来 。Zhang 等 [17.74] 利 用 了 机 器 人 在 地 面 上 运动 这 一 
假设 。 

事实 上 ， 如 果 想 通过 设计 一 个 项 目 ， 使 学 生 们 学 到 尽量 多 的 工程 知识 ， 机 器 人 系统 可 能 
是 一 个 最 佳 课 题 。 
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对 机 器 人 视觉 感 兴趣 的 读者 ， 可 以 进一步 阅读 IEEE International Conference on Robotics 
and Automation 的 论文 集 。 
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第 18 章 自动 目标 识别 


Luke, you've switched off your targeting computer. what's wrong? 

George. Gens 
本 章 主要 介绍 机 器 视觉 的 应 用 2 。 我 们 选择 的 应 用 领域 是 自动 目标 识别 (automatic target 
recognition，ATR )， 将 要 介绍 在 实际 应 用 中 如 何 利用 前 面 学 过 的 数学 知识 与 算法 。 要 强调 的 
一 点 是 ， 几 乎 所 有 的 应 用 场合 ， 需 要 的 不 只 是 某 一 种 技术 ， 而 是 融合 了 前 面 学 过 的 大 多 数 技 
术 。 和 前 面 各 章 一 样 ， 我 们 主要 解释 一 些 概念 ， 并 且 指导 大 家 阅读 更 高 深 的 文献 。 但 由 于 本 

章 强 调 的 是 应 用 ， 因 此 本 章 中 就 不 再 包含 专题 这 部 分 内 容 。 

自动 目标 识别 是 研究 构造 系统 与 相关 技术 的 工程 学 领域 的 术语 ， 其 目的 是 为 了 识别 具体 物理 目 
标 、 确 定 其 在 场景 中 的 位 置 、 以 及 计算 目标 所 具有 的 特征 [18.7，18.9，18.69]， 经 常用 于 军事 环境 。 
针对 该 研究 领域 的 综述 请 参考 [18.3，18.8，18.21，18.66，18.74，18.79，18.89]。 本 章 只 考虑 基于 图 

像 的 自动 目标 识别 系统 。 因 此 ， 对 术语 (如 杂 物 ) 的 使 用 ， 限 制 在 对 成 像 情况 有 意义 的 范围 内 。 


18.1 层次 体系 


本 节 定 义 几 个 自动 目标 识别 系统 中 常用 的 术语 和 缩 略 语 ， 先 从 自动 目标 识别 分 层 体系 的 
五 个 层次 人手 。 

检测 (detection): 确定 目标 是 否 存在 于 给 定 的 场景 中 。 

分 类 (classification): 该 术语 的 原意 是 区 分 履带 车 和 轮 式 车 ， 至 少 在 军队 用 语 中 如 此 。 
然而 ， 自 从 出 现 了 该 定义 后 ， 多 数 自动 目标 识别 研究 都 没有 根据 性 能 要 求 进行 分 类 。 另 外 ， 
现在 美国 军队 正在 慢 慢 淘汰 履带 车 ， 如 果真 是 做 到 了 这 一 点 的 话 ， 原 定义 肯定 会 被 废除 。 

IRA] (recognition): 在 相似 种 类 的 目标 中 加 以 区 分 。 例 如 ， 将 坦克 与 前 端 装 载 机 区 分 开 ， 
将 吉普 车 与 小 汽车 区 分 开 ， 将 火箭 发 射 器 和 学 校 公共 汽车 区 分 开 等 等 。 

PHA. (identification): 辨认 出 目标 的 类 型 ， 例 如 坦克 所 属 的 类 型 (是 T90 还 是 M1 等 )。 

Ate (characterization): 对 已 经 辨识 出 来 的 目标 进行 更 详细 地 描述 。 在 军队 用 语 中 ， 
该 层次 的 任务 是 根据 车 上 装载 的 武器 数量 和 武器 类 型 来 描述 目标 的 特征 ， 例 如 ， 一 辆 T90 坦 古 
尾部 另 挂 一 个 55 加 仑 的 油 桶 。 

自动 目标 识别 层次 体系 的 每 一 级 对 目标 的 描述 都 比 前 一 级 精细 ， 其 中 特征 描述 揭示 了 目 
标的 最 详细 信息 。 


术语 
另外 还 有 一 些 在 自动 目标 识别 文献 中 经 常用 到 的 术语 ， 我 们 给 出 如 下 几 个 定义 : 
ARBA (chip) 常常 是 包含 某 个 目标 的 一 幅 小 图 片 (一 小 块 图 像 区 域 。 一 一 译 者 注 )， 是 


日” 作者 十 分 感激 Rajeev Ramanath ， 他 对 本 章 内 容 给 予 了 很 大 帮助 ， 他 实际 上 还 编写 了 部 分 内 容 。 感谢 
Richard Sims 和 Irvine， 他 们 对 内 容 进 行 了 仔细 审查 ， 并 提出 了 重要 的 意见 。 
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从 场景 的 大 图 像 中 抽取 出 来 的 。 辨 别 目标 可 能 存在 的 目标 提示 算法 (target cueing algorithm), 
就 经 常 以 目标 图 片 作为 输出 结果 。 

检 出 率 (detection rate): 系统 正确 检测 到 目标 的 比率 。 

4 XX (classification rate): 将 目标 正确 分 类 的 比率 ， 或 者 更 一 般 地 说 ， 在 目标 已 经 检 
测 到 的 条 件 下 ， 正 确 识别 目标 的 概率 。 

杂 物 (clutter): 图 像 中 不 是 目标 的 其 他 物体 。 典 型 的 杂 物 可 能 有 树木 、 房 屋 或 者 其 他 车 
辆 ， 包 括 图 像 上 不 是 目标 的 任何 物体 。 

人 造 杂 物 (cultural clutter): 指 的 是 人 造物 体 ， 如 楼 房 等 ， 与 自然 杂 物 相对 。 

iX * 3 (false alarm rate): 一 般 是 指 所 检测 出 的 “目标 ”实际 上 并 非 目标 的 比例 。 但 如 
果 任 务 是 分 类 而 不 是 检测 的 话 ， 就 应 该 对 这 个 定义 修改 一 下 。 我 们 可 以 看 到 误 敬 率 和 误 警 的 
概率 是 不 一 样 的 ， 误 警 率 通常 指 每 平方 公里 上 的 误 警 情况 ， 参 见 18.3 节 。 

FLIR (forward looking infrared): 指 中 波 (3~5um) 和 长 波 (8-14um) 谱 带 内 形成 的 图 
像 。 术 语 “ 前 视 ”(forward looking) 不 再 具有 实际 意义 ， 但 是 首 字 缩 略语 依然 使 用 。 

IFF: 辨别 敌 (foe) 友 (friend)。 


18.2 系统 组 成 


自动 目标 识别 系统 的 算法 组 成 可 以 分 解 为 : 预 处 理 、 检 测 、 分 割 和 分 类 四 个 部 分 (参见 图 18-1)， 
当然 某 个 系统 的 实现 可 能 只 包含 其 中 的 一 个 或 多 个 部 分 。 例如, 如 果 在 视 场 中 只 存在 一 个 热点 区 域 ， 
而 且 不 需要 进行 明确 分 割 ， 那 么 一 个 “ 团 状 物 ”(blob) 跟踪 器 就 可 以 跟踪 该 图 像 的 重心 即 可 。 

自动 目标 识别 系统 把 “看 到 ”的 图 像 作为 它 的 输入 。 成 像 模 式 是 各 种 各 样 的 ， 每 种 模式 
都 有 各 自 固有 的 优点 ， 因 为 每 种 模式 各 自 都 有 “看 到 ”目标 不 同属 性 的 能 力 。 例 如 ， 战 场 上 
伪装 良好 的 坦克 ， 用 可 见 光 谱 成 像 可 能 具有 隐藏 性 ， 但 用 红外 谱 成 像 时 会 看 得 很 清楚 ， 因 为 
它 的 引擎 在 不 停 地 转动 ! 图 18-2 是 不 同 成 像 模式 形成 的 两 幅 图 像 。 其 中 图 18-2a 是 用 普通 摄像 
镜头 捕捉 到 的 图 像 ， 图 18-2b 是 用 FLIR 镜 头 捕 捉 到 的 图 像 ， 注 意 观察 坦克 的 引擎 和 振动 是 怎样 
因为 “发 热 ” 而 被 发 现 的 。 

表 18-1 列 出 了 一 些 常 用 的 谱 带 。 其 中 划分 谱 带 的 边界 波长 因 人 而 异 [18.9]。 

图 像 





识别 





图 18-2 不 同 的 成 像 模式 a) 可 见 光 图 像 b) 热 红外 图 像 (注意 看 在 左边 的 远 
处 发 热 的 坦克 引擎 ) c) 地 面 实况 (摘自 [18.5]， 使 用 经 过 允许 ) 
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6 5) E ARRA 
表 18-1 常用 谱 带 
谱 带 名 字 波长 范围 能 源 ” 

可 见 光 (V) 0.4-0.7um 日 光 

近 红 外 线 (NIR) 0.7-1.1um 日 光 

短波 红外 线 (SWIR) 1.1-2.5um 日 光 

中 波 红外 线 (MWIR) 3-5um 日 光 

热 红外 线 (TIR) 或 长 波 8-12um 热源 
红外 线 (LWIR) 

微波 ， 雷 达 波 RADAR Imm~im 热源 ， 人 造 源 


给 出 一 幅 场 景 图 像 (其 中 包括 可 能 的 目标 和 背景 )， 需 要 检测 出 目标 。 目 标 检测 可 分 为 两 
步 [18.86]。 第 一 步 ， 利 用 低层 次 图 像 处 理 技术 从 图 像 提取 出 合适 的 度量 值 。 然 后 根据 这 些 度 
量 值 对 图 像 进行 初步 区 域 分 割 。 第 二 步 ， 对 于 分 割 后 区 域 ， 通 过 高 层次 描述 子 确定 目标 是 否 
存在 ， 也 可 能 对 目标 进行 分 类 。 


18.3 算法 的 性 能 评价 


本 节 我 们 考虑 对 自动 日 标识 别 系统 的 性 能 评价 问题 。 在 下 面 的 叙述 中 ， 如 果 系 统 的 功能 
是 将 场景 中 的 目标 进行 正确 分 类 ， 我 们 使 用 “分 类 器 ”这 个 词 。 如 果 系统 的 指标 属于 自动 目 
标识 别 分 层 体系 中 的 其 他 层次 ， 我 们 也 会 用 与 前 面相 同 的 术语 如 “ 误 警 ”等 。 

为 了 用 语 的 方便 ， 我 们 将 在 模式 识别 问题 的 含义 中 定义 这 些 术 语 ， 其 中 模式 识别 把 结果 
分 为 “在 场景 中 )” 和 “不 在 (场景 中 )” 两 大 类 别 。 这 种 分 类 器 的 应 用 场合 包括 自动 目标 
检测 (敌对 目标 或 韭 目标 )、 医 学 诊断 〈 肿 瘤 或 非 肿瘤 )， 以 及 数字 信道 检验 (在 一 端 发 送 “1， 
或 “0' ,在 另 一 端 接收 )。 第 14 章 中 提 到 了 几 篇 参考 文献 ， 可 以 先 回顾 一 下 那些 内 容 。 

为 了 说 明 检测 理论 中 的 几 个 关键 点 、 先 举 一 个 简单 例子 作为 开始 。 考 虑 数字 通信 系统 ， 
发 送 符号 a 表示 “0”， 发 送 符号 bp 表示 “1”。 

当 发 送 “0” 暑 我们 称 有 假设 0(H7o)， 当 发 送 “1” 时 ， 我 们 称 有 假设 1(81)。( 在 自动 目标 
识别 问题 中 ， 可 以 用 态 表 示 目 标 不 在 场景 中 ， 用 已 表 示 目 标 在 场景 中 。 ) 。 根 据 自然 规律 ， 系 
统 中 将 会 存在 噪声 。 因 此 ， 当 发 送 “0”、 或 者 说 是 发 送 a 时 ， 我 们 将 接收 到 e+m， 其 中 一 个 是 
噪声 样本 。 于 是 有 : 

H, Z=a+n (18-1) 
H, Z=b+n 
其 中 Z 表 示 二 值 假设 的 接收 信号 。 
图 18-3 对 该 决策 理论 进行 了 形象 化 的 总 结 。 








决策 规则 
决策 (Do 或 D)) 


图 18-3 二 值 决策 系统 


U 
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其 中 ，D。o 和 DD 表示 分 类 器 做 出 的 决策 ， 当 然 也 可 能 是 错误 的 决策 ， 而 三 和 Hi 则 表示 事实 。 
我 们 用 P(Ho) 和 P(H) 表 示 先 验 概率 ， 或 在 受 挖 的 实验 中 的 真 值 。 

在 自动 目标 识别 算法 评估 中 ， 一 般 要 用 到 四 个 术语 ， 它 们 是 : 

正确 辨别 (True positive): 目标 存在 (例如 ， 病 人 体内 有 肿瘤 ;发送 了 “1”)， 分 类 器 也 
认为 目标 存在 (我 们 确定 病人 体内 有 肿瘤 ， 收 到 了 “1” )。 

正确 拒 识 (True negative): 目标 不 存在 (例如 ， 病 人 体内 没有 肿瘤 ; 发 送 了 “0”), 分 类 
器 也 认为 目标 不 存在 (没有 肿瘤 ， 收 到 了 “0” )。 

Wè (False negative): 目标 存在 (例如 ， 病 人 体内 有 肿瘤 ， 发送 了 “1”), 但 分 类 器 认 
为 目标 不 存在 (病人 体内 没有 肿瘤 ， 收 到 了 “0”)。 

误 检 (False positive): 目标 不 存在 (例如 ， 病 人 身体 健康 ， 发 送 了 “0”)， 但 分 类 器 认为 
目标 存在 (病人 体内 有 肿瘤 ， 收 到 了 “1”)。 

很 明显 ， 漏 检 和 误 检 这 两 种 错误 情况 都 是 不 利 的 。 漏 检 可 能 会 更 糟 ， 因 为 可 能 会 丢掉 危 
险 的 实际 目标 ， 或 者 会 忽视 掉 一 个 恶性 肿瘤 。 然 而 ， 这 两 种 错误 的 危害 可 以 用 不 同 代价 加 以 
考虑 《参见 第 14 章 )。 有 时 上 面 的 术语 也 可 用 其 他 名 字 代 替 ， 例 如 ,“ 误 警 ”(false positive) 
和 “ 漏 警 (false misses)”。 以 这 四 个 值 为 基础 ， 可 以 推导 出 如 下 两 个 概率 : 

敏感 程度 (sensitivity): 正确 辨别 的 概率 ， 也 就 是 正确 辨别 与 正确 辨别 及 漏 检 之 和 的 比值 ， 
即 P(D1IH1)P(H)。 在 目标 检测 的 某 个 应 用 领域 (与 分 类 、 识 别 和 辨别 不 同 )， 敏 感 程度 指 的 是 
检测 概率 ， 用 P, 表示 。 

确切 程度 (specificity ): 正确 拒 识 的 概率 ， 即 正确 拒 识 与 正确 拒 识 及 误 检 之 和 的 比值 ， 
BN P(DolHy) P(A)» 

可 以 看 出 PCD, |, PCA, )= P(D,, H) ， 那 么 正确 决策 的 概率 为 : 

P(C) = P(D,,H,) + P(D,,H,) = P(D, | Hy) Pp) + P(D, V H,)P(H,) 


18.3.1 性 能 表示 


本 节 讨 论 如 何 表示 和 估计 自动 目标 识别 系统 的 性 能 。 

一 且 设 计 出 自动 目标 识别 系统 ， 我 们 总 会 有 一 些 可 以 调整 的 参数 。 其 中 一 个 参数 可 能 是 亮 
度 阔 值 或 目标 的 像素 数 阐 值 ; 在 二 次 分 类 器 中 ， 决 策 边 界 就 是 参数 ; 而 在 k 最 邻近 分 类 器 中 ( 回 
忆 14.7 节 的 内 容 )， 数 值 / 就 是 参数 ， 等 等 。 那 么 系统 的 性 能 又 是 如 何 随 着 这 些 参数 的 变化 而 变化 
的 呢 ? 要 明白 ， 所 设计 的 系统 如 果 具 有 100% 敏 感 程度 ， 而 不 考虑 确切 程度 的 话 ， 这 并 不 是 最 合 
适 的 。 告 诉 看 病 的 每 一 位 病人 “你 得 了 肿瘤 ”的 医生 ， 就 具有 100 多 的 敏感 程度 。 但 是 ， 我 们 虽 
然 希 望 系统 的 敏感 程度 能 尽 可 能 接近 100% ， 同 时 也 希望 尽 可 能 具有 理想 的 确切 程度 。 通 过 调整 
有 关 参 数 ， 往 往 可 以 改善 某 种 性 能 ， 而 以 牺牲 另 一 种 性 能 为 代价 ， 就 像 图 18-4 中 显示 的 那样 。 

在 这 幅 图 中 ， 正 确 辨别 率 (true positive fraction)(P(DIIH1) 的 另 一 种 说 法 ) 已 经 在 纵 轴 上 
注 出 ， 而 误 检 尝 (false positive fraction) 也 在 横 轴 上 注 出 。 图 中 的 每 条 曲线 表示 某 个 具体 的 
分 类 器 (或 者 是 某 个 特定 系统 ) 的 性 能 ， 其 中 参数 在 一 定 范围 内 变化 。 在 三 个 系统 中 ， 弯 曲 
最 厉害 、 最 接近 左上 角 的 那 一 条 曲线 ， 很 明显 是 最 优 的 。 可 以 对 这 个 分 析 进 行 量化 表示 ， 即 
通过 计算 曲线 上 面 的 面积 ， 并 选择 面积 最 小 的 系统 。 

这 样 的 曲线 称 为 ROC 曲 线 ， 其 中 ROC 是 通信 理论 中 术语 “ 受 试 者 操作 特性 ”(Receiver 
Operating Characteristic) 的 缩写 。 
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0.75 P(Do/Ho) 0.50 0.25 
0.75 0.25 
P(D,/H;) P(DofH)) 
0.5 0.5 
0.25 0.75 
0.25 P(Dj/Hg)os 0.75 


图 18-4 受 试 者 操作 特性 (ROC) 曲线 


18.3.2 从 训练 数据 生成 ROC 曲 线 


对 训练 数据 应 用 分 类 器 ， 可 以 生成 ROC 曲 线 。 首 先 ， 复习 一 下 错误 概率 的 定义 。 
在 决策 区 域内 ， 我 们 可 以 写 出 错误 的 平均 概率 如 下 : 
e = (PCH, )p@lH,) dz f POT plz Ho) dz (18-2) 
Qo ron 


KB. Q eB Pe FS BAY ERE ZEB] EAR. POH) RT 2E EAR EER, pOXLH,) 
是 样本 属于 类 别 ; 的 条 件 下 度量 值 (如 亮度 ) 的 条 件 概率 密度。 当然 ， 我 们 并 不 知道 真正 的 概 
率 密度 ， 我 们 只 知道 根据 训练 集 估计 出 的 密度 。 另 外 ， 根 据 这 些 估计 出 的 密度 ， 推 导出 了 决 
RERO,- 

也 可 以 简单 数 一 下 训练 集中 被 错误 分 类 的 元 素 个 数 ， 通 过 这 种 方式 来 决定 错误 率 。 称 
这 个 错误 率 为 视 在 错误 率 (apparent error rate )。 不 幸 的 是 ， 利 用 视 在 错误 率 往 往 会 导致 乐 
观 的 结果 ， 当 测试 不 属于 训练 集中 的 数据 时 ， 它 会 低估 系统 的 错误 率 。 这 是 因为 设计 自动 
目标 识别 系统 的 根据 ， 就 是 使 训练 集 的 错误 分 类 样本 数 最 小 。 并 且 ， 如 果 训 练 集 的 分 布 不 
能 理想 地 代表 数据 的 真实 分 布 ， 分 类 器 反映 的 将 是 训练 集 的 特性 ， 而 不 是 全 部 样本 的 实际 
分 布 状况 。 

我 们 必须 将 视 在 错误 率 和 真实 错误 率 (true error rate) 区 分 开 。 尽 管 我 们 没有 办 法 确定 真 
实 错误 率 ， 但 通过 下 面 两 种 不 同 的 方法 ， 可 以 较 好 地 估计 出 真实 错误 率 。 
将 训练 集 与 测试 集 分 开 

这 个 方法 很 容易 理解 。 只 是 将 原始 训练 集 随机 分 为 两 部 分 ， 利 用 其 中 的 一 半数 据 来 建立 
分 类 器 。 然 后 用 另 一 半数 据 对 系统 进行 测试 。 如 果 我 们 有 很 大 的 训练 集 (成 千 上 万 的 样本 实 
例 )， 或 者 说 ， 有 10“ 个 样本 ， 其 中 d 是 问题 的 维 数 ， 那 么 该 方法 的 结果 将 是 十 分 合理 的 。( 这 
里 的 维 数 指 的 是 什么 ? ) 。 不 幸 的 是 ， 在 多 数 问题 中 这 么 大 的 训练 集 是 不 可 能 的 。 
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留 一 检验 法 


假设 在 训练 集中 有 n 个 样本 数量 。 从 和 集 各 中 先 取 出 样本 1， 并 且 用 其 他 n — 1 个 样本 来 设计 
分 类 器 。 然 后 用 样本 1 对 结果 进行 测试 。 对 所 有 的 样本 都 像 这 样 重复 一 遍 。 可 以 证 明 所 得 到 的 
错误 率 ， 是 对 用 所 有 n 个 样本 设计 的 分 类 器 的 期 望 错误 评 的 一 个 接近 于 无 偏 的 估计 。 当 然 ， 这 
种 方法 需要 设计 4 个 分 类 器 ， 这 是 不 允许 的 。 但 是 ， 有 了 这 个 结果 ， 就 有 了 可 以 绘 出 ROC 曲 
线 的 数据 了 。 


18.3.8 性 能 和 系统 评价 


自动 目标 识别 算法 只 能 放 到 系统 要 实现 的 目标 的 环境 中 来 评价 。 对 只 能 跟踪 热点 的 导弹 
(自动 识别 算法 ) 用 能 否 区 分 坦克 和 汽车 的 能 力 进行 评价 ， 这 是 非常 电 兰 的。 因此， 我 们 只 想 
评估 自动 目标 识别 算法 的 每 一 个 “模块 ”(block )。 但 即使 这 样 仍然 存在 一 个 问题 。 可 以 想像 ， 
系统 的 每 部 分 在 各 自 独立 的 环境 中 可 能 正常 工作 ， 但 整个 系统 仍 有 可 能 满足 不 了 总 指标 。 因 
此 ， 人 们 试图 在 评价 每 部 分 自身 的 性 能 时 ， 仍 要 参照 系统 要 达到 的 总 目标 。 

性 能 评价 是 一 个 比较 棘手 的 问题 ， 因 此 急需 一 种 针对 自动 目标 识别 应 用 特点 的 信息 理论 
度量 方法 。 就 像 度量 传输 信道 的 容量 那样 ， 我 们 很 想 知道 :“ 在 这 类 场景 下 工作 的 任 一 个 自动 
目标 识别 算法 ， 能 期 望 得 到 的 最 佳 性 能 是 什么 9” 不 幸 的 是 ， 在 本 书 的 写作 过 程 中 还 没有 这 
样 的 度量 方法 ， 尽 管 已 经 有 了 一 些 进展 [18.10，18.61]。 

预 处 理 运算 对 输入 数据 进行 修正 ， 从 而 能 改善 图 像 的 质量 ， 这 包括 去 噪 ， 去 模糊 ， 以 及 
其 他 图 像 修正 措施 。 例 如 ， 去 噪 系统 可 以 用 边缘 检测 方法 进行 评价 ， 如 比较 测 得 边缘 的 数量 、 
边缘 细 化 程度 或 者 边缘 连续 性 等 。 总 的 来 说 ， 预 处 理 步骤 就 是 为 了 增加 目标 与 背景 的 可 区 分 
度 ， 因 此 特征 空间 的 距离 测度 就 可 以 利用 了 ， 因 为 检测 运算 就 是 要 确定 目标 区 域 的 位 置 。 这 
样 ， 就 可 用 检测 概率 和 误 警 概 率 来 评价 这 一 步骤 。 在 目标 被 检测 出 来 之 后 ， 通 过 分 割 运 算 可 
以 提取 出 目标 。 然 后 我 们 就 可 以 使 用 一 些 度量 指标 ， 例 如 错误 分 类 的 像素 数 、 实 际 目标 与 提 
取 目 标 之 间 的 相关 系数 等 。 


18.4 特有 的 机 器 视觉 问题 


自动 目标 识别 领域 中 的 难点 可 以 归纳 为 目标 标志 (signature) 的 易 变 性 、 误 警 率 、 分 割 、 
特征 选择 、 由 于 信息 不 完全 导致 的 性 能 退化 ， 以 及 性 能 评价 [18.9，18.71] 
18.4.1 目标 信号 可 变性 和 误 警 率 

目标 的 “标志 ”可 以 是 几何 性 标志 ， 或 者 是 某 种 光谱 性 标志 。 面 对 “聪明 的 敌人 ”， 这 两 
种 标志 都 很 容易 发 生 改 变 。 在 所 有 的 影响 因素 中 ， 目 标 表面 反射 、 自 然 照射 以 及 遮挡 情况 的 
易 变性 ， 都 是 十 分 难处 理 的 问题 。 
表面 反射 和 自然 照射 的 易 变性 

所 有 图 像 接收 的 信号 都 是 发 射 辐射 和 反射 辐射 之 和 。 . 

| f(x, y) = SG. y) + p(x, y) (18-3) 
但 是 ， 发 射 能 量 可 能 比 反 射 能 量 (在 可 见 光 情 况 下 ) 小 得 多 ,或 者 大 得 多 (在 长 波 红外 线 情 
况 下 )。 发 射 率 (emissivity) 是 发 射 辐射 与 总 辐射 之 比 。 
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») Ey) (18-4) 
PO) fy) 
发 射 辐射 是 随 着 温度 增加 而 增加 的 : 
E- g Aexp(- T^) (18-5) 


上 式 中 的 4 是 表面 积 ， 单 位 是 m*?，o 是 Stefan 常 数 ，5.67 x 10 ‘Wm 开 -“*，( W 是 瓦特 一 一 译 者 
CE) T 是 绝对 温度 K 度 。 

因为 在 24 小 时 内 ， 物 体 从 太阳 吸收 到 的 辐射 和 目标 反射 的 辐射 总 量变 化 很 大 ， 并 且 物 体 
上 各 部 件 变 热 和 变 冷 的 速度 是 不 一 样 的 ， 某 些 部 件 要 比 其 他 部 件 冷却 的 更 快 一 些 ， 因 此 同一 
物体 在 一 天 之 内 的 对 比 度 就 可 能 发 生 逆转 。 图 18-5 显 示 了 这 个 现象 





图 18-5 物体 在 24 小 时 内 可 能 出 现 对 比 度 逆转 (图 片 来 自 美国 军队 夜 视 及 电子 
光学 研究 中 心 ， 使 用 经 过 允许 ) 


遮挡 

对 于 工业 用 机 器 视觉 系统 ， 在 制造 设备 设计 时 就 考虑 到 要 避 开 遮挡 情况 。 而 自动 目标 识 
别 系 统 则 与 工业 机 器 视觉 不 同 ， 遮 挡 不 仅 发 生 在 自动 目标 识别 场景 中 ， 目 标 也 经 常会 出 现 间 
分 被 遮挡 的 情况 。 事 实 上 ， 对 手 将 想 办 法 将 自己 的 装备 尽 可 能 地 隐藏 起 来 [4.13]! 在 后 面 的 图 
18-7 中 ， 显 示 的 就 是 树 后 隐藏 着 一 辆 汽车 的 图 像 。 

所 有 这 些 变化 的 情况 ， 使 “应 该 怎样 对 自动 目标 识别 系统 进行 比较 好 的 训练 ”这 一 问 
题 变 得 更 加 突出 了 。 将 一 个 系统 训练 过 度 (over-train) 的 情况 就 太 容 易 发 生 了 。 对 于 训练 过 
的 数据 ， 系 统 的 性 能 会 表现 得 非常 好 ， 但 是 对 于 未 参加 训练 的 数据 ， 系统 的 性 能 会 表现 得 非 
常 精 糕 ， 即 使 这 些 数据 在 人 眼看 来 可 能 非常 接近 。 问题 不 是 让 检测 概率 (probability of 
detection) 变 得 很 高 ， 而 是 让 检测 概率 高 的 同时 ， 保 证 误 柳 率 比较 低 。 Neyman-Pearson 检 验 
[18.53] 提 出 一 种 限定 误 敖 概率 条 件 下 的 使 另 一 一 类 误差 最 小 化 的 方法 (在 这 里 是 指 限 定 误 歼 概 
率 条 件 下 使 检测 概率 达到 最 高 一 - 译 者 注 )。 


18.4.2 跟踪 
在 自动 目标 识别 中 ， 即 使 不 是 多 数 也 有 很 多 应 用 需要 进行 目标 跟踪 。 而 且 ， 这 里 的 跟踪 
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问题 与 民用 领域 的 跟踪 相 比 ， 约 束 条 件 更 少 且 更 具 拢 战 性 。 质 心 跟踪 (centroid tracking) 是 
跟踪 算法 中 最 简单 的 类 型 。 虽 然 仍 有 很 多 方法 来 改善 其 复杂 性 [18.39]， 质 心 跟踪 器 (The 
centroid tracker) 通常 假设 视 场 中 只 有 一 个 目标 ， 而 且 (Bix) 亮点 要 比 背 景明 亮 得 多 。 如 果 
这 些 假设 正确 ， 那 么 目标 质心 就 是 视点 的 中 心 。 更 复杂 的 运动 目标 跟踪 经 常 要 用 到 最 优 滤 波 
器 ， 例 如 卡尔 曼 - 布 西 (Kalman-Bucy) 滤波 器 。Haddad 和 Simanca[18.28] 讨 论 了 Kalman 滤 波 
方法 的 缺陷 ， 并 提出 基于 小 波 和 Zakai 方 程 的 非 线 性 跟踪 滤波 器 。Amoozegar 等 [18.3] 综 述 了 模 
糊 与 神经 网 络 技 术 在 跟踪 中 的 应 用 情况 。 
跟踪 过 程 也 同样 可 以 与 车 辆 分 类 过 程 结 合 起 来 [13.12，18.22]。 


18.4.3 4I 


在 多 数 自动 目标 识别 场合 ， 将 目标 与 杂 物 分 开 是 最 基本 的 问题 。 杂 物 随 着 场景 类 的 变化 
而 变化 ， 需 要 采用 自 适应 表示 方法 [18.38]。 但 是 ， 现 在 关于 “信和 号 与 杂 物 ”(signal-to-clutter) 
还 没有 统一 的 、 能 够 广泛 接受 的 定义 [18.61，18.68，18.78]。 

一 旦 确定 了 可 能 的 目标 位 置 ， 就 要 求 尽 可 能 精确 地 从 背景 中 提取 了 出 来 。 然 而 ， 每 个 分 
害 器 对 目标 及 其 邻 域 像素 都 有 某 种 先 验 假设 。 这 些 假设 并 不 是 对 所 有 的 场景 都 是 正确 的 。 我 
们 在 第 8 章 中 学 过 ， 两 种 常用 的 分 割 方法 是 边缘 或 边界 勾画 以 及 区 域 生 长 [18.68]。 边 界 检 测 
方法 以 识别 图 像 中 的 差异 为 基础 ， 而 区 域 生 长 利用 的 则 是 图 像 中 的 相似 性 。 由 于 边界 检测 技 
术 对 噪声 非常 敏感 ， 成 功 的 边界 检测 常常 依赖 高 层 语义 知识 (semantic knowledge). KIRE 
长 技术 的 抗 噪 能 力 较 强 ， 因 此 对 语义 知识 的 依赖 不 是 很 明显 。Qi 等 [18.63] 提 出 一 种 有 效 的 分 
制 方法 ， 能 够 从 无 人 驾驶 飞机 (UAV) 拍 摄 的 图 像 中 分 割 出 人 造 目标 。 方 法 是 利用 曲率 信息 ， 该 
信息 从 图 像 直方 图 得 到 ， 图 像 直方 图 用 BEzier 样 条 做 了 平滑 处 理 。 实 验 结 果 表 明 ， 利 用 增强 后 
的 直方 图 而 不 是 原始 图 像 ， 可 以 得 到 类 似 的 分 割 结果 ， 但 是 效率 却 提 高 了 很 多 。 在 [18.87] 中 ， 
提出 一 种 基于 图 像 金字 塔 数据 结构 的 分 割 策略 ， 从 塔 顶 向 塔 底 运行 ， 分 层 处 理 图 像 细节 。 

正如 在 第 6 章 中 学 过 的 一 样 ， 作 为 分 割 运算 的 组 成 部 分 ， 扩 散 (diffusion) 和 类 扩散 
(diffusion-like) 过 程 [18.41，18.42] 提 供 了 非常 好 的 噪音 消除 步骤 。 


18.4.4 特征 选择 


研究 人 员 利 用 的 特征 多 数 是 几何 特征 、 拓 扑 特征、 光谱 特征 [18.7]。 特 征 选择 的 主要 目的 ， 
应 使 同一 类 目标 的 相似 程度 最 大 ， 使 不 同类 目标 的 相似 程度 最 小 。 特 征 选择 的 数学 计算 问题 
在 Hand[18.30] 所 着 的 教材 中 进行 了 很 好 的 讲解 。 


18.5 自动 目标 识别 算法 


下 面 ， 将 本 书 前 面 讲 过 的 一 些 问 题 与 具体 的 自动 目标 识别 应 用 联系 起 来 。 主 要 参考 了 自 
动 目标 识别 方面 的 相关 文献 。 我 们 将 不 对 自动 目标 识别 方面 的 相关 文献 做 综述 ， 因 为 利用 统 
计 模 式 识别 方法 的 有 关 文 献 实 在 是 太 多 了 ， 统 计 模 式 识别 本 身 就 可 以 编写 一 本 教科 书 。 但 是 
在 我 们 引用 的 出 版 物 中 ， 将 会 提 到 这 些 方法 。 

自动 目标 识别 应 用 所 表现 出 的 特性 ， 与 多 数 其 他 机 器 视觉 应 用 不 同 ， 如 与 工业 检测 就 不 
同 。 关 键 差别 在 于 : 

1) 自动 目标 识别 系统 不 仅 必须 而 且 必 然 要 处 理 非 结构 化 环境 ， 也 就 不 可 能 对 照明 、 观 察 
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角度 、 天 气 环境 等 进行 控制 。 

2) 目标 被 遮挡 不 只 是 可 能 的 ， 而 且 是 很 可 能 的 。 

3) 目标 像素 很 可 能 只 有 少数 。 而 正确 分 类 的 概率 又 强烈 依赖 于 目标 的 像素 点 数 。 这 一 点 
可 以 从 图 18-6 中 看 出 来 ， 图 中 显示 的 是 虽然 只 是 一 个 神经 网 络 分 类 器 的 结果 。 但 是 类 似 的 结 
果 ， 尤 其 是 在 目标 像素 为 50 个 左右 的 位 置 ， 概 率 曲线 会 发 生 显 着 变化 这 一 点 ， 对 任何 系统 ， 
包括 人 眼 识 别 系统 ， 都 存在 。 


100 — 








100 200 300 400 500 


图 18-6 HWRE (用 圆 形 表示 )， 对 检测 结果 的 分 类 概率 (用 三 角形 表示 )， 以 及 对 检测 结 
果 的 识别 概率 〈 用 方形 表示 )， 它 们 是 目标 像素 数 的 函数 (根据 [18.84] 重 画 得 到 ) 


有 意思 的 是 ， 第 一 次 研究 目标 像素 数 与 Pu 的 关系 ， 其 时 间 要 早 于 对 数字 图 像 的 研究 ， 但 
考虑 的 是 扫描 线 而 不 是 像素 。 对 于 军事 目标 的 红外 图 像 ，Johnson[18.36] 发 现 ， 人 有 眼 识别 目标 
时 , .目标 在 最 小 一 维 的 尺寸 至 少 需要 四 个 像素 。 当 然 ， 这 个 结论 也 会 随 着 目标 复杂 程度 和 识 
别 任务 的 细节 不 同 而 变化 , 但 是 跨越 3~5 个 像素 的 范围 , 对 应 方形 目标 上 大 约 20 个 目标 像素 点 ， 
就 可 以 产生 相当 好 的 效果 。 参 见 文献 [18.37]。 

显然 ， 自 动 且 标识 别 系 统 的 观测 器 需要 与 目标 保持 尽 可 能 远 的 距离 ， 这 样 就 造成 目标 像 
素数 总 是 很 少 ! 事实 上 ， 观 察 者 是 不 愿意 靠近 那里 的 ， 这 样 就 强烈 促进 了 机 器 人 前 视 观 测 器 
的 研发 需要 [18.35]. 

4) 必须 考虑 三 维 信息 。 这 里 三 维 的 意思 是 ， 要 从 多 个 角度 观察 目标 的 外 表 (参见 第 9 章 
和 第 12 章 )。 

5) 任何 自动 目标 识别 系统 必须 考虑 杂 物 和 伪装 物 。 这 些 杂 物 和 伪装 物 是 场景 中 的 一 些 物 
体 ， 跟 目标 非常 相似 ， 但 又 不 是 目标 ， 它 们 出 现在 场景 中 可 能 出 于 偶然 ， 但 也 可 能 是 有 意 安 
排 的 。 最 明显 的 伪装 物 就 是 与 目标 类 型 相同 的 但 却 没有 敌意 的 设备 。 

上 面 的 这 些 要求 ， 对 自动 目标 识别 系统 设计 影响 很 大 。 例 如 ， 你 可 能 会 考虑 这 样 一 个 系 
统 ， 利 用 多 种 大 小 不 同 的 模板 进行 目标 识别 ， 每 个 模板 对 应 目标 的 一 种 外 形 (aspect). RE, 
简单 地 抽出 各 种 大 小 不 同 的 窗口 ， 将 维 数 降低 (利用 K-L 变 换 )， 并 将 这 些 结果 传送 给 分 类 器 
[18.14], 

可 用 不 同 的 分 类 法 对 自动 目标 识别 方法 进行 分 类 。 一 种 方法 是 ， 将 自动 目标 识别 方法 分 
成 两 组 [18.7]， 第 一 组 是 前 面 提 到 的 经 典 模式 识别 法 ， 用 的 是 统计 学 技术 。 这 种 方法 很 常见 ， 
因为 实现 起 来 比较 容易 ， 而 且 计 算 速 度 也 较 快 ， 只 要 能 够 有 效 提取 出 实用 的 特征 就 行 。 另 一 
种 方法 是 基于 AI ( 人工 智能 ) 的 方法 ， 需 要 附加 符号 计算 这 一 步 。 

根据 自动 目标 识别 的 作用 原理 不 同 ， 访 领域 的 另 一 些 专家 ， 将 自动 目标 识别 系统 分 为 基 
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于 几何 (大 部 分 为 单一 传感器 ) 的 系统 ， 和 基于 光谱 的 系统 [18.71]。 基 于 几何 的 系统 的 基础 
出 自 于 以 下 设想 , 即 保留 关于 目标 的 尽 可 能 多 的 信息 ， 并 利用 智能 推理 ， 可 以 对 包含 所 关注 目 
标的 场景 做 出 比较 好 的 解释 [18.70]。 这 样 ， 有 了 对 图 像 生成 机 制 这 一 正 向 过 程 比较 好 的 理解 ， 
其 逆 问 题 ， 即 根据 收 到 的 信号 进行 目标 识别 的 任务 ， 就 变 得 更 加 可 行 了 。 然 而 ， 通 过 考虑 这 
些 模 型 的 相互 作用 ， 对 这 些 模型 进行 集成 ， 形 成 紧密 结合 的 完整 模型 的 工作 ， 现 在 还 处 于 起 
步 阶段 。 

基于 几何 的 系统 ， 可 以 再 继续 分 成 不 同 的 类 型 。 例 如 ， 可 将 基于 几何 的 系统 分 成 使 用 较 
大 数量 模板 集 ( 外观 图 ，aspect graph) 的 系统 ， 以 及 基于 三 维 模型 [18.77] 的 系统 。 

基于 光谱 的 系统 ， 通 过 光谱 分 析 和 光谱 匹配 [18.13] 进 行 目 标识 别 。 直 观 上 讲 ， 用 到 的 谱 
带 越 多 ， 揭 示 的 场景 细节 就 越 丰富 。 光 谱 信 号 中 的 深层 细节 能 够 提高 目标 的 可 检测 性 ， 尤 其 

404] ”对 于 像素 级 或 者 亚 像素 级 的 小 型 目标 [18.16，18.47]。 

另 一 种 自动 目标 识别 系统 ， 以 下 列 假设 为 基础 : 来 自 所 关注 目标 的 传感器 数据 越 多 ， 系 
统 的 性 能 就 越 好 。 这 一 点 在 直观 上 是 显而易见 的 ， 因 为 不 同 的 传感器 具有 互补 作用 。 由 于 单 
传感器 的 自动 目标 识别 系统 在 很 多 方面 受到 限制 ,现在 有 一 种 向 多 传感器 目标 检测 系统 发 展 
的 趋势 ， 于 是 出 现 了 多 传感器 数据 相关 和 融合 问题 。 有 时 称 为 多 传感器 融合 。 但 是 ， 信 息 源 
可 能 是 不 同 的 传感器 (传感器 融合 ) ， 或 者 是 不 同 的 算法 (算法 融合 ) [18.32]. 

最 后 ， 一 些 研 究 者 将 自动 目标 识别 的 算法 集 分 成 基于 模型 的 方法 、 基 于 统计 的 方法 和 基 
于 模板 的 方法 。 下 面 对 这 三 类 方法 进行 详细 讨论 。 


18.5.1 基于 模型 的 技术 


多 数 基于 模型 的 技术 都 是 基于 几何 的 ,他 们 试图 回答 这 样 一 个 问题 :“ 给 定 某 个 观察 角度 ， 
目标 看 起 来 是 什么 样 的 呢 ? ”[18.1，18.6，18.12，18.13]。 这 可 能 是 一 个 有 效 的 指导 思想 ， 
因为 它 提供 了 由 于 目标 所 在 位 置 的 影响 ， 目 标的 哪 部 分 会 被 遮挡 掉 的 信息 。 例 如 ， 从 某 个 视 
点 来 看 ， 可 能 看 不 到 坦克 的 炮 管 。 然 而 ， 如 果 我 们 有 目标 的 三 维 模型 ， 就 可 以 生成 所 有 可 能 
的 视图 ， 并 进行 综合 搜索 [18.65] 得 到 匹配 结果 。 基 于 模型 的 技术 容易 与 不 同 的 数据 类 型 结合 ， 
特别 是 深度 (激光 雷达 ) 图 像 [18.87]。 但 是 ， 就 像 机 器 视觉 中 随处 可 见 的 那样 ， 优 化 问题 必 
须 得 到 解决 ， 可 以 利用 神经 网 络 [18.29]、 遗 传 算法 [18.10]、 或 者 其 他 优化 方法 。 

通常 ， 只 能 得 到 有 关 场 景 结构 和 场景 几何 的 描述 ， 而 不 是 场景 的 物理 学 特性 ( 热 、 光 、 
材料 性 质 等 )。 匹 配 也 就 是 假设 和 验证 模型 与 图 像 点 相 匹 配 的 过 程 。 该 过 程 产生 了 从 三 维 到 二 
维 的 变换 ， 使 三 维 模型 点 与 二 维 图 像 点 对 应 起 来 。 最 佳 匹配 也 就 是 对 场景 做 出 最 佳 解释 的 变 
换 。 从 三 维 到 二 维 的 对 应 解 基本 上 是 透视 方程 的 解 。 投 影 后 的 模型 点 与 相应 的 图 像 点 之 间 的 
误差 ， 用 来 验证 匹配 的 好 坏 。 

这 些 方法 非常 有 效 ， 但 是 需要 做 大 量 的 处 理 ， 并 且 需 要 大 型 数据 库 。 当 目标 存在 遮挡 时 
[18.73]， 执 行 效果 就 比较 差 ， 因 为 遮挡 造成 了 “不 完整 信息 ”的 出 现 。 为 了 解决 这 个 问题 ， 
要 在 根据 被 遮挡 的 视图 恢复 目标 的 “实际 几何 形状 ”这 方 
面 ， 做 很 多 工作 [18.75]。 

一 般 来 说 ， 遮 挡 又 分 成 两 种 类 型 ， 即 相 邻 类 型 (楼 房 
或 整 棵 树 之 间 , 如 图 18-7 所 示 ) 以 及 分 布 类 型 (树枝 之 间 )。 

[205] 第 一 种 情况 处 理 起 来 比较 容易 ， 因 为 未 被 遮挡 的 部 分 为 解 





图 18-7 被 树 遮挡 的 卡车 图 像 [18.65]， 
SPIE( 使 用 经 过 允许 ) 
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决 问题 提供 了 足够 的 信息 。 在 [18.73] 中 ，Sadjadi 提 出 一 种 在 遮挡 下 进行 检测 的 方法 。 将 分 割 
图 像 的 区 域 边界 转化 成 链 码 , 然 后 用 直方 图 求 交 〈 下 一 节 介 绍 ) 将 链 码 与 一 组 模型 进行 匹配 。 
利用 匹配 结果 作为 度量 系统 的 置信 和 度 。 但 是 ， 如 果 置 信和 度 仍然 很 低 的 话 ， 那 么 系统 就 假设 该 
目标 存在 部 分 遮挡 ， 于 是 将 它 与 数据 库 中 的 遮挡 模型 进行 匹配 。 


18.5.2 基于 统计 的 技术 


基于 统计 的 技术 背后 的 思想 与 第 14 章 中 的 内 容 是 相同 的 : 1) 获取 特征 ; 2) 计算 表征 不 
同类 别 的 统计 度量 值 ; 3) 进行 决策 ， 使 某 种 测度 最 优 ， 如 最 小 代价 、 最 大 正确 决策 概率 等 。 
本 节 中 ， 我 们 只 考虑 多 谱 度量 方法 。 

多 谱 匹 配 

一 种 多 光谱 分 析 技术 ， 使 用 了 Swain 和 Ballard[18.82] 针 对 理想 彩色 图 像 提 出 的 直方 图 求 交 
思想 。 这 一 思想 很 简单 ， 就 是 比较 两 幅 图 像 的 直方 图 ， 并 且 确 定 重 伙 因子 (数据 库 直 方 图 中 
有 多 少 像素 与 新 图 像 直 方 图 中 的 像素 相 匹 配 )。 特 别 地 ， 给 出 两 幅 直 方 图 ，7 (来 自 新 图 像 ) 
FIM (来 自 数据 库 )， 每 一 幅 图 像 都 包含 "个 槽 (bin) ， 求 交 运 算 定义 为 Y 7 mind, M). ith 


果 就 是 在 这 两 幅 图 像 中 颜色 相同 的 像素 数目 。 为 了 得 到 重 登 因子 ， 可 对 这 个 结果 进行 规范 化 
处 理 。 显 然 ， 由 于 目标 的 颜色 值 受 光 照 的 影响 很 大 ， 在 这 种 情况 下 ， 简 单 算法 并 不 能 给 出 较 
好 的 匹配 结果 。 为 了 克服 这 个 难题 ，Funt 和 Finlayson[18.24] 把 直方 图 求 交 与 “颜色 恒 常 性 ” 
[18.23] 这 一 概念 结合 起 来 ， 去 掉 光照 条 件 变 化 的 影响 ， 实 质 上 是 将 图 像 规 范 化 为 标准 的 光照 
条 件 。 既 然 数 据 库 中 的 图 像 也 具有 标准 的 光照 条 件 ， 就 可 以 利用 上 面 介绍 的 直方 图 求 交 法 ， 
将 “ 蕴 果 与 芋 果 做 比较 ”。 我 们 没有 对 直方 图 的 维 数 做 任何 限制 ， 因 此 可 以 将 这 个 概念 扩展 到 
更 高 维 (更 多 的 传感器 )， 于 是 就 得 到 一 个 更 加 健壮 的 系统 。 

在 已 知 目标 标志 与 被 观测 标志 之 间 ， 另 一 种 光谱 匹配 的 度量 措施 是 ， 将 标志 看 成 向 量 ， 
求 出 两 向 量 之 间 的 内 积 [18.93]。 匹 配 的 越 好 ， 两 向 量 之 间 的 夹 角 就 越 接近 于 0。 换 句 话说 ， 如 
果 有 两 个 4 维 量 值 光谱 性 标志 ， 即 X 和 Y， 那 么 这 两 个 量 值 之 闻 的 距离 可 以 用 这 两 个 光谱 之 间 的 
角度 来 表示 


X-Y 
cos ixi 
9 较 小 表示 这 两 个 光谱 在 数量 上 是 相似 的 ; 同样 ，6 较 大 表明 这 两 个 光谱 不 同 。 在 [18.93] 中 ， 
Weisberg 等 用 该 测度 进行 诊 类 运算 ， 将 一 幅 图 像 分 割 成 若干 块 兴趣 区 域 。 还 有 很 多 其 他 类 似 
的 度量 方法 也 在 使 用 [18.34，18.62]。 

在 [18.86] 中 ，Trivedi 在 遥感 领域 的 应 用 中 ， 提 出 了 使 用 相对 光谱 信息 替代 绝对 信息 。 这 
增强 了 系统 的 健壮 性 。 例 如 ， 某 个 目标 也 许 在 某 个 特定 的 频道 下 比 背 景 亮 一 些 ， 而 在 另 一 种 
频道 下 又 比 背 景 暗 一 些 。 


18.5.3 模板 匹配 


在 自动 目标 识别 应 用 领域 中 ， 模 板 匹 配 是 最 简单 最 常用 的 算法 。 当 建立 外 观 图 容易 时 ， 
模板 匹配 是 最 有 效 的 方法 。 举 例 来 说 [18.51] ， 如 果 目 标 是 一 般 轮 船 ， 很 容易 找 出 它 的 重心 ， 
就 可 以 去 掉 平 移 的 自由 度 。 另 外 ， 轮 船 一 般 偏 长 偏 窗 ， 其 方向 可 以 通过 计算 主轴 来 确定 。 将 
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刚体 运动 排除 之 后 ， 只 需要 几 次 模板 比较 就 可 确定 轮船 的 精确 姿态 ， 并 进行 识别 。 

在 有 的 应 用 中 目标 姿态 很 难 估计 ， 此 时 可 以 使 用 一 组 聚焦 滤波 器 ( focused filters), 其 中 
最 强烈 的 响应 指出 了 目标 的 姿态 [18.2, 18.40]. 

第 9 章 中 的 可 变形 模板 ， 很 适合 检测 和 分 类 已 经 粗 定 位 的 目标 [18.44，18.76]， 如 飞行 颖 
的 侧面 轮廓 [18.65]， 其 中 优化 问题 是 作为 MAP (最 大 后 验 概率 ) 估计 问题 提出 来 的 。 

卫星 图 像 中 道路 识别 和 道路 跟踪 问题 ， 在 [18.26，18.48] 中 进行 了 讨论 。Barzohar 和 
Cooper[18.4] 也 同样 提出 了 MAP 估 计 问 题 。 


18.6 Hough 变 换 


因为 很 多 人 造物 体 都 具有 直线 形 的 特点 ，Hough 变 换 就 经 常 出 现在 自动 目标 识别 应 用 中 。 
例如 ， 它 可 用 于 [18.19] 识 别 从 太空 中 观察 到 的 导弹 轨迹 ( 亚 像素 级 )。 对 时 间 计 算 差 分 ， 就 可 
以 看 到 目标 的 轨迹 ， 当 然 还 附带 很 多 噪声 。 然 而 ， 这 条 轨迹 或 多 或 少 是 一 条 直线 ， 经 Hough 
[207] ”变换 后 会 看 得 十 分 清楚 。Cowart 等 [18.19] 也 考虑 到 用 参数 变换 方法 ， 这 样 可 以 跟踪 机 动 目标 。 
从 上 往 下 看 ， 轮 船 是 一 个 直 条 形 目标 (如果 轮船 没有 发 生 不 幸 的 碰撞 )。 当 用 合成 孔径 雷 
i& (Synthetic Aperture Radar, SAR) 进行 观察 时 ， 轮船 图 像 由 亮 暗 斑点 组 成 (Spots and 
dropouts )。 利 用 简单 的 Hough 变 换 就 可 以 估计 出 [18.25，18.50] 轮 船 的 方向 。 令 人 惊奇 的 是 ， 
Hough 变 换 的 噪声 敏感 度 要 比 主轴 方法 的 噪声 敏感 度 小 。 如 果 轮 船 正 在 航行 ， 它 的 航 迹 就 更 
长 、 更 直 ， 并 且 更 容易 发 现 [18.18]。 
从 地 上 望远镜 观察 ， 人 造 卫星 具有 直线 边缘 (参见 图 18-8)。 同 样 可 用 Hough 变 换 识 别 出 
这 些 边 缘 ， 并 抽取 边缘 特征 [18.20]。 





图 18-8 哈 勃 太空 望远镜 (图 片 来 自 NASA) 


18.7 形态 学 技术 


在 文献 中 看 到 的 形态 学 运算 类 型 受 自动 目标 识别 特殊 需求 的 影响 ， 例 如 ， 用 合成 孔径 雷 
达 往 下 看 目标 上 时， 目标 往往 只 有 几 个 像素 。 因 此 ， 消 除 噪声 就 显得 非常 重要 ， 可 以 利用 形态 
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学 中 的 开 运算 消除 噪声 ， 该 运算 具有 旋转 不 变性 。 在 文献 [18.60] 中 ， 将 公式 (18-6) 定义 的 
传统 开 运 算 ， 利 用 公式 (187) 来 代替。 

(foB)(n, m) = max, jes{min; (fn + i,m + j))) (18-6) 

Y (f; (n, m) = min(max, jes{f (n+i, m+ j)}, f(n,m)} (18-7) 


其 中 8 是 图 18-9 所 示 的 环形 结构 元 (structuring element)。 该 结构 元 的 行为 随 着 目标 大 小 L 和 结 
构 元 半径 R 的 相对 变化 而 不 同 。 基 于 这 类 方法 [18.58]， 形 成 了 ESSN 
更 明确 的 目标 识别 [18.10] 或 目标 跟踪 [18.92] 的 形态 学 算法 。 结 O < > 








采 如 表 18-2 所 示 。 图 18-9 环形 结构 元 和 和 矩形 目标 
Phan 等 [18.58] 也 在 利用 形态 学 进行 形状 识别 。 (根据 [18.60] 重 画 ) 
表 18-2 修改 后 开 运 算 的 结果 (环形 结构 元 ) 
L<R 去 掉 目 标 
R<L<2R 去 掉 一 部 分 ， 保 留 一 部 分 
2R<L 保留 目标 








18.8 链 码 


模板 匹 瑟 和 基于 特征 的 方法 各 自 都 存在 一 定 的 缺陷 。 多 数 算法 依赖 于 目标 的 先 验 知识 ， 
而 且 还 要 求 在 传感器 视 场 内 所 用 特征 相对 于 目标 的 大 小 和 方向 具有 不 变性 。 基 于 模板 匹配 的 
方法 需要 大 型 数据 库 ， 检 索 时 间 也 很 长 。 然 而 ， 可 以 对 轮廓 进行 匹配 [18.72]， 利 用 分 割 后 目 
标的 链 码 ， 对 链 码 直方 图 进行 处 理 (参见 图 18-10)。 这 一 策略 有 以 下 两 个 有 效 特性 : 

1) 图 像 域 尺度 变化 与 链 码 直方 图 域 的 垂直 移 位 等 价 。 

2) 方向 变化 与 直方 图 水 平 循环 移 位 等 价 。 


图 像 分 割 后 区 域 链 码 
链 码 的 直方 图 直方 图 匹配 格 架 算法 


FEIN 


图 18-10 Sadjadi 提 议 的 方法 示意 图 (经 过 重 画 ) 


两 个 不 同 的 目标 可 能 具有 相同 的 链 码 直方 图 。 为 了 解决 这 个 问题 ， 可 以 用 格 架 算法 (trellis 
algorithm) 来 区 分 这 两 个 目标 [18.81]。 变 形 模 式 的 格 架 结构 是 通过 把 每 个 行 向 量 用 作 “ 分 级 模式 ” 
( 格 架 中 的 结 点 ) 而 建立 的 。 大 量 观测 数据 为 这 一 格 架 提供 统计 根据 ， 其 中 用 到 了 维特 比 算法 
(参见 2.4.2 节 )。 尽 管 这 种 方法 针对 的 只 是 手写 体 识别 ， 但 是 也 可 以 推广 到 任何 变形 模式 情况 。 


18.9 结论 
在 公开 发 表 的 文献 中 ， 有 很 多 文献 对 不 同 的 识别 技术 做 了 对 比 。 例 如 ， Li 等 [18.43] 通 过 
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对 神经 网 络 、 统 计 学 和 基于 模型 的 方法 进行 对 比 ， 得 出 结论 : “至 少 对 于 FLIR 图 像 ， 神 经 网 络 
方法 的 识别 效果 要 比 PCA ( 主 成 分 分 析 ) 和 LDA (线性 判别 分 析 ) 方法 的 效果 更 好 ”。 他 们 发 
现 基于 Hansdorff 距 离 的 方法 识别 效果 也 很 好 。 

参考 文献 中 的 有 关 论文 所 做 出 的 结论 ， 常 常 使 人 觉得 自动 目标 识别 问题 几乎 已 经 被 解决 
了 。 但 实际 上 ， 这 些 系统 不 是 没 经 实际 军事 数据 进行 检验 ， 就 是 应 用 范围 受 特殊 应 用 或 特殊 
条 件 的 限制 ， 其 “真实 ”性 能 令 人 怀疑 。 我 们 必须 明白 ， 这 里 所 讨论 的 问题 ， 不 仅 很 重要 ， 
而 且 当 敌人 对 这 些 问题 有 了 新 发 明 时 ， 这 些 问 题 处 理 起 来 就 更 加 困难 。 今 天 的 “最 新 技术 水 
E” ”并 不 意味 着 明天 仍然 是 。 

有 鉴于 此 ， 作 者 认为 要 从 工程 学 的 视角 (也 就 是 从 实用 的 角度 ) 出 发 ， 所 构建 的 基本 的 
自动 目标 识别 系统 ， 必 须 满足 下 面 的 条 件 : 

。 可 供 研 究 团体 使 用 的 作为 标准 的 大 型 实际 图 像 集合 ， 并 且 包 含 真 值 (ground truth). 信息 。 

。 有 一 种 工具 , 它 能 对 大 量 自动 目标 识别 技术 进行 恰当 的 评估 ,并 将 其 中 最 好 的 技术 组 合 到 

一 个 具有 “最 佳 ”性 能 的 系统 中 。 

在 考虑 这 些 方面 时 ， 就 会 带 出 若干 问题 : 我 们 如 何 来 制定 一 个 标准 ? 要 达到 什么 样 的 目 
标 一 一 是 ROC 曲 线 最 佳 的 高 效 系统 ， 还 是 硬件 最 少 的 轻便 系统 ?很 明显 ， 这 些 性 能 要 求 不 会 
同时 得 到 满足 ， 需 要 进行 权衡 处 理 。 

然而 ， 仍 然 可 以 看 出 自动 目标 识别 系统 发 展 的 总 趋势 。 采 用 多 传感器 系统 、 系 统 具 有 轻 
便 性 、 很 少 需要 人 的 干预 而 成 为 真正 意义 上 的 自动 化 系统 、 使 用 越 来 越 多 的 数学 工具 ， 为 系 
统 的 发 展 提 供 了 可 靠 的 基础 ， 显 而 易 见 这 些 都 是 研究 必须 面 对 的 。 在 这 一 章 ， 作 者 希望 写 出 
了 问题 的 广泛 性 ， 同 时 也 表达 了 为 解决 该 问题 所 取得 的 科学 成 就 。 
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ik: 索引 中 的 页 码 为 英文 原 书页 码 ， 即 本 书页 边 所 标 页 码 。 


3D analysis (3 维 分 析 )，261 
4-connected (4 连通 )，53 
8- connected (8 连通 )，53 


A 


accepting state (接受 状态 )，373 
accumulator arrays ( 累加 器 数组 )，278 
active contours ( 主动 轮廓 )，98, 322 

active testing (主动 测试 )，387, 412 

active vision ( 主动 视觉 ) 385 

affine (fj8f). 196 

affine transformation ( 仿 射 变换 )，218 
aircraft ( 飞机 )，407 

albedo (反射 率 ) 244 

algebraic distance (代数 距离 ) 202, 203, 237 
algebraic invariants ( 代数 不 变量 )，389 
algorithm fusion (算法 级 融合 ) 405 
algorithms, clustering (算法 , RAE), 359 
algorithms, performance of (算法 ,性 能 )，395 
angle density ( 角 密 度 )，141 

anisotropic diffusion (各 向 异性 传播 )，133 
annealing GB), 121, 127,133, 206 
annealing schedule (退火 程序 )，122 
annealing, tree (退火 树 )，184 

anti-extensive property ( 抗 外 延性 质 )，149, 151 
apparent error rate( 视 在 错误 率 )，398 

arc length (WK), 196 

array processor (数组 处 理 跨 ) 258 

aspect (外 观 )，385 

aspect equivalent (外 观 等 价 ) 296 

aspect graphs ( 外 观 图 ) 295 

aspect ratio (长 宽 比 )，226, 304 

assembly (装配 )，384 

atoms (数据 项 )，291 

ATR (自动 目标 识别 )，367, 392 

ATR, performance of (自动 目标 识别 性 能 )，395 
attention, focus of (注意 力 中心 )，387 

aura (流域 )，53 


autonomous exploration (自主 探测 ) 385 
axes, principal (主轴 )，235 
axis of symmetry ( 对称 轴 )，226 


B 


BAD ( 带 偏 置 各 向 异性 传播 )，137 

bar code (条 形 码 )，105 

basis (4%), 11,59, 152 

basis functions (Æ iR), 75 

basis set ( 3& fR), 220 

basis vectors (ja) & ), 75,220 

Bayes’ classifier ( 贝 叶 斯 分 类 器 )，337 
Bayes’ risk ( JU Er), 338 

Bayes’ rule ( 贝 叶 斯 公式 )，23, 329 
between-class scatter 【类 间 离 散 度 )，348 


Bhattacharyya distance ( 巴 塔 恰 里 亚 距 离 )，358, 366 
biased anisotropic diffusion ( 带 偏 置 各 向 异性 传播 ) ， 


137 
binary ( 二进制 )，38 
binary hypothesis (二 值 假设 ) 396 
binary morphology (一 值 形 态 学 )，144 
biquadratic (二 元 二 次 方程 ) 39,93 
black body radiation ( 黑体 辐射 率 ) 248 
blanking (视频 消 隐 区 )，45 
block thresholding (分 块 阔 值 化 )，183 
blueprint,reading of (蓝图 )，384 
blur (模糊 )，109 
bootstrapping ( 自 举 )，204 
boundary conditions (边界 条 件 )，74 
brightness (亮度 )，38 


C 


camera calibration (摄像 机 标定 )，48, 64 
camera motion (摄像 机 运动 )，386 


Canny edge detector (Canny 边 缘 检 测 器 )，97 


cardinality (数目 )，294 
Cartesian (第 卡尔 坐标 )，58 
causality (因果 性 )、87 
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CCD (电荷 耦合 器 件 )，42, 43 . 

CCD camera calibration (CCD 摄 像 机 标定 )，63, 257 

center of gravity ( 重心 ) 225 

central axis (rfl), 131 

centroid tracking (( 目标 ) 中 心 跟踪 )，401 

cepstrum ( 倒 频 谱 )，61 

chain code (5&8), 159, 230,369,376,377,409 

chain code histogram ( 链 码 直方 图 )，410 

chaining (连锁 反应 )，192 

chamfer map (切削 映像 }，165 

chamfer-based closing (基于 切削 的 闲 运 算 )，165 

character recognition (字符 识别 )，322, 382, 389 

characteristic equation (特征 方程 )，15 

characterization (特征 描述 )，393 

charge-coupled device (Hifi BEE), 42 

Chernoff distance ( ChernofffB zi), 358,366 

chip ( 目标 图 片 )，393 

circles ,finding (检测 圆 )，280 

circulant matrix (循环 位 移 和 矩阵 }，74 

circular arcs ( AJL), 215 

city block distance (街区 距离 )，357 

classification (4%), 392 

classification rate (分 类 正确 率 )，393 

classifier, inner product (内 积分 类 器 )，342 

classifier, linear (线性 分 类 器 )，341 

classifier, maximum likelihood (最 大 似 然 分 类 器 )， 327, 
331 

classifier, quadratic (二 次 分 类 器 ) 340 

clique (完全 子 图 )，291 

closing ( 闭 运 算 )，149 

cluster (RÆ), 328 

clustering (Æ), 210, 288, 329, 359 

clustering, agglomerative (分 级 合并 聚 类 )，359, 366 

clutter (4&4), 393,404 

clutter, cultural ( 人 造 杂 物 )，393 

coffee transform ( 耗 时 长 的 变换 )，279 

color constancy (颜色 恒 常 性 )，406 

color indexing (颜色 索引 ) 382 

color information (彩色 信息 )，387 

color invariants (颜色 不 变量 )，382 

commutative property (交换 性 )，148 

compactness ( 紧 致 性 )，225 

competitive learning (竞争 学 习 )，215 

composite (复合 视频 信号 )，44 

computational complexity (计算 复杂 性 )，279 

conditional probability (条 件 概率 )，8 

conditional risk (条 件 风 险 )，336, 338 

conductivity (f&5E3k), 131 


cone ($W$), 202 

conformable ( "T4H3& (4pBE)), 12 

confuser (伪装 物 ) 404 

conic fitting (二 次 曲线 拟 合 )，212 

conic section (二 次 曲线 )，203 

conjiigate gradient (JEERAEE), 127, 270, 273 
connected (连通 的 )，291 

connected component (连通 成 分 )}，167, 186, 290 
connected component labeling (连通 成 分 标记 )，216 
connected regions (连通 区 域 )，181 

connectivity paradox (连通 性 疑 题 )，54 
consistency (一 致 性 )，92, 267, 286 

consistent labeling (一 致 性 标记 )，266 
constructive solid geometry (构造 立体 几何 )，293 
context-free ( 上 下 文 无 关 )，372, 381 
context-sensitive (上 下 文 有 关 )，371 
continuation method (连续 延 拓 法 )，116 
contouring( (14) 轮廓 化 )， 47 

contrast reversal (对 比 度 反 相 )， 400 

convex discrepancy (i ( 包 ) 偏差 )，229 . 
convex hull (m), 229 

convolution (#1), 50, 74 

convolution and correlation ( 卷 积 与 相关 )，67 
correlation filters (HXW), 413 
correspondence (XJ), 250 

correspondence problem (对 应 问题 )，48, 286, 312, 321 
covariance ( 协 方差 )，79, 106, 219, 224, 226 
covariance techniques ( 协 方差 技术 )， 211 
critical point (关键 点 )，215 

curvature (曲率 )}，60 

curvature estimates (曲率 估计 )，204 
curvature-based segmentation (基于 曲率 的 分 割 )，204 
curve code (曲线 编码 )，377 

curve evolution (曲线 演变 )，197 

curve segmentation (曲线 分 割 )，212 

curves (曲线 )，196 

cylinders, generalized (广义 柱 体 )，238 


D 


decision boundary (决策 边界 ) ，327 

decision rule (决策 规则 )，326, 330, 338 

decision rules, linear (线性 决策 规则 )，327 
decomposition (分 解 )，179 

deconvolution ( 解 卷 积 )，109 
deformable contour (变形 轮廓 )，201 

deformable modeis. ( 变形 模型 )，321 . 
deformable template ( 变形 模板 )，233, 312, 388,405 ; 
degeneracy, geometric (几何 退火 )，388 
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degree (ARAA), 291 

delta function (脉冲 函数 )，121 

density (密度 )，39 

density, conditional probability (条 件 概 率 密度 )，331 
depolarization (去 极 化 )，373 

derivation (推理 )，370 

derivative estimation (导数 估计 )，69 

derivatives (导数 )，67, 68 

detection (42%), 392 

detection rate (#2444), 393 

diagrams, Voronoi (Voronoi), 383 

diameter (11 $$), 225,227 

differentiation (KR), 123 

differentiation filters (微分 滤波 器 )，106 
diffusion (扩散 )，402 

diffusion equation (扩散 方程 )，131 

digital library (数字 图 书馆 ) 318 

dilation (f#AK), 144 

dimensionality (4%), 399 

Dirac delta (脉冲 函数 )，121 

directrix (#828), 283 

discriminant function (判别 函数 )，329, 336 
disparity (#12), 64, 286 

distance transform (距离 变换 )，153, 165, 179, 199, 232 
distance transform, Euclidian ( 欧 几 里 德 距离 变换 )，154 
distance, affine-invariant ( 仿 射 不 变 的 距离 )，261 
distance, Mahalanobis ( 马 哈 拉 诺 比 斯 距离 )，341 
distances,Euclidian ( 欧 几 里 德 距离 )，219 
distortion (Hà), 49,108 

dithering (Wifi), 213 

divergence (fkHE), 358 

duality (118), 149 

dynamic programming (动态 规划 )，198 
dynamic range (动态 范围 )，46 


E 


ECG (心电图 )，373 

edge detection (边缘 检测 )，76, 97 

edge extension using relaxation (用 松弛 法 进行 边缘 扩 
展 )，99 

edge strength (边缘 强度 )，69 

edges ( 边 )，290 

edges in range images, determining (确定 深度 图 像 中 的 
32), 243 

edges of roads (道路 边缘 ) ，386 

ego-motion ( 自 运动 )，141 

eigenimage (特征 图 像 )，300 

eigenvalues (特征 值 )，15, 349 
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eigenvector (特征 向 量 )，15, 222 

ejection fraction (HÆ), 383 

electrocardiogram (心电图 )，373 

electron-hole (电子 - 空 穴 )，43 

ellipse, direct fitting (椭圆 直接 拟 合 )，203 
ellipse, finding (椭圆 检测 )，288 

ellipses, fitting (椭圆 拟 合 )，203 

ellipses, least square fitting (椭圆 的 最 小 二 乘 拟 合 )，212 
ellipsoid ( 椭 球 )，202, 235 

ellipsoids, fitting (|$5R1U.& ), 203 

ellipse, finding (椭圆 检测 )}，285 

emissivity (发 射 率 )，400 

epipolar line (外 极 线 )，48 

equivalence memory (等 价 存储 器 )，190 
equivalence relation (等 价 关 系 )，190 

erosion (Jl fi), 146 

error rate (错误 率 )，398 

Euclidian distance ( 欧 几 里 德 距 离 )，219, 304, 356 
Euclidian distance transform ( 欧 几 里 德 距离 变换 )，154 
events (事件 ),， 8 

explicit ( 显 式 )，202 

explicit representation ( 显 式 表 达 )，39,71 
extensive property (扩展 性 质 )，148 

external energy (外 能 量 )，198 


F 


face recognition (人 脸 识 别 }，346, 384 

facet model ( 面 片 模型 )，97 

factor (因子 )，159 

false alarm (iR), 396 

false alarm rate (6&3), 393 

false negative (Wata (18Bj)), 396 

false positive ( 误 报 (fBIH)), 396 

false positive fraction 〈 误 报 率 〈 假 阳 率 )) ，397 
fast Fourier transform (快速 传 里 叶 变换 )，75, 84 
feature (特征 )，304 

feature selection (特征 选择 )， 324 

feature vector (特征 向 量 ) ，304 

FIDAC (参考 文献 [16.9] 标 题 中 的 一 个 缩写 )，381 
filters (JEJE 25), 41 

finite element models ( 有限 元 方法 )，390 

finite state machine (有限 状态 机 )，22, 370, 373 
Fisher’s linear discriminant ( 费 希 尔 线性 判别 )，348 
fitting ( 拟 合 )，69,73 

fitting surfaces (表面 拟 合 ) 202 

fitting, straight lines (直线 拟 合 )，223 

fitting, subpixel precision of (分 像素 拟 合 精度 )，225 
FLIR (中 长 波 红外 图 像 )，394 
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focus, of a parabola (抛物 线 焦点 ) 284 
focused filters (聚焦 滤波 器 )，407 

formal language (形式 语言 )，369 

Fourier descriptors ( 健 里 了 时 描述 子 )，231, 262 
Fourier transform ( 侍 里 叶 变 换 )，41, 83, 207 
fractal dimension (分 形 维 )，207, 212 

fractal dimension for gray-scale ( 灰 度 图 的 分 形 维 )，209 
frame time (—iPtial), 43 

frequency response (频率 响应 ) 41 

FSM (有 限 状态 机 )，23 

function fitting (BAA), 69 

functional (函数 的 )，39 

furthest neighbor distance (最 远 邻 距离 )， 358 
fusion (融合 )，405 


G 


Gabor function (Gabor 消 数 )，90 

Gauss curvature (高 斯 曲率 )，61 

Gauss map (高 斯 图 )，286 

Gaussian (高 斯 分 布 )，78, 88, 279 

Gaussian, mean of (高 斯 分 布 均值 )，333 
Gaussian, multivariate (多 元 高 斯 分 布 )，335, 358 
generalized Hough transform (广义 Hough 变 换 )，282 
genetic algorithm (遗传 算法 )，214, 403 

genetic learning (i&f$2#2]), 388, 413 

geometric flow ( 几何 流 )，234 

geometry, curve ( 几何 曲线 )，234 
geometry-based (基于 几何 的 )，404 

GNC (分 级 非 凸 性 ) 129 

gradient (梯度 )，13, 97, 279 

gradient descent ( FRE PIEZA), 16,18, 127,206,270 
gradient magnitude (梯度 幅 值 )，78 i 
graduated nonconvexity ( 逐 级 非 凸 性 ) 116, 129 
grammar (文法 ) 370 

graph, directed ( 有 向 图 )，290 

graphs, aspect (外 观 图 )，238 

gray-scale (Jk HE), 38 

gray-scale morphology (JxBEJE ASS), 152,179 
Green's function (格林 函数 )，132, 133 

grid (WHE), 67 

ground plane ( 地面) 386 

ground truth (实际 真 值 )，396 


H 


handwrriten word recognition (手写 字 识别 )，380 
harmonic ( 谐 波 )，236 

Hausdrorff distance (这 斯 多 夫 距 离 )，410 

heart (心脏 )，383 


heat equation (热流 方程 )，132 

Hessian ( 黑 塞 矩 阵 ) 14,135 

hexagonal (六 角形 )，57 

hexagonal derivative (六 近邻 求 导 )，71 

hidden Markov model ( 陷 马 尔 科 夫 模 型 ) 22, 62, 381 
histogram ( & 7; Hl), 184,330 

histogram intersection ( 直方 图 求 交 ) ，406 
homogeneity, predicate ( 均 质 谓词 )，181 
homogeneous ( 齐 次 ， 同 质 )，181 

homogeneous transformation ( 齐 次 变换 )，217 
homotopy ( 同 伦 ), 116 

Hopfield neural network (Hopfield 神 经 元 网 络 )，137 
horizontal blanking (水 平 消 隐 )，45 ‘ 
horizontal resolution (水 平分 辨 率 )，46 

Hough transform (Hough ¥ th), 275,288,356, 407 
Hough transform, generalized (广义 Hough 变 换 )，282， 
hull, visual (视野 ) 258 

human movement ( 人 的 运动 )，256 

hyperboloid ( 双 曲 面 )，235 

hyperellipsoid ( 超 椭 球体 )，223 

hyperquadric ( 超 二 次 曲面 )，237 


iconic (图 像 的 , 图 标 )，38 

idempotent property ( &?7qJE), 151 

identification (辨别 ， 鉴 别 )，393 

IFF (辨别 敌 友 )，394 

IFS (图 像 文件 系统 )，29 

ili-posed (病态 的 )，108 

image formation (图 像 生 成 )，43, 404 

image hashing (图 像 散 列 ) 318 

image representations (图 像 表示 )，38 

imaging, infrared (红外 成 像 的 )，383 

implicit ( 隐 式 )，202 

implicit representation ( 隐 式 表达 )，39 

increasing property (增长 性 )，148, 151 

independent (独立 )，8 ' 

indexing (Er3R), 256 ` 

infrared imagery (红外 图 像 ) 389 

inliers (内 点 )，204 

inner product classifier (内 积分 类 器 )，342 

inside a curve (曲线 内 部 )，197 

inside/outside (内 部 /外 部 )，40 

inspection of PC boards (PC 板 检 验 )，150 

inspection/quality control (检验 /质量 控制 )，383 

integrating several range images ( 数 个 距离 图 像 整合 )， 
243 

intensity gradient ( 强度 梯度 )，71 
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internal energy (内 部 能 量 )，198 lexicographic (字典 式 的 )，74 

interpolation (内 揪 )，114 library, digital (数字 图 书馆 ) ，318 

interpretive tree (解释 树 ) 387 light sources, multiple (多 光源 )，249 

intersections of edges ( 边 的 交 )，243 likelihood ratio ( 似 然 比 )，335 

invariance (不 变量 )，239 likelihood ratio test ( 似 然 比 测试 )，340 

invariant (不 变性 )，203 likelihood, of views (视图 的 可 能 性 )，385 

invariant moments (7.4846), 304 line drawing (线条 图 ) 263 

invariant shape models (不 变形 状 模型 )，261 line segments, motion from (从 运动 分 析 线 段 )，250 

invariants, geometric 《几何 不 变 的 )，318 linear (线性 ),，40 

invariants, thermophysical ( 热 物理 学 不 变性 }，389 linear classifier (线性 分 类 器 )，341 

inverse problem (〈 逆 问题 ) 108,114,404 linear machines (线性 机 )，327 

Ising type (Jsing 类 型 )，137 linear operator (线性 算 子 )，65, 74,78 

ISODATA (ISODATA# 26 BH), 362 linear relaxation ( 线性 松弛 法 )，267 

isoelectric ( 零 电 位 )，373 linear transformation (线性 变换 )，12 

isophote (等 亮度 线 )，51, 201 linearly independent (线性 独立 )，I1 
linearly separable (线性 可 分 )，327 

J linked list (5&& ), 291 


LISP (LISP), 291 
local/global ( 局 部 /全 局 ) 275 
local/global inference problem ( 局 部 /全 局 推理 问题 ) , 


Jacobian ( 雅 可 比 )，14 
joint probability (联合 概率 )，8 
junction matching ( 结 点 匹配 )，325 


263 
K LOG ( 拉 普 拉 斯 高 斯 )，88 
logarithmic spiral grids ( 对 数 螺旋 网 络 )，261 
Kalman Bucy filter (卡尔 曼 - 布 西 滤波 器 )，401 log-polar transformation (对 数 极 坐标 变换 )，239 
kernel ( 核 )，66 low-pass ( 低 通 )，78, 98, 106 
K-L transform (CLA, 220, 404 luminance (ERE), 38 
k-means (k-19[8 RAH), 362 : LWIR (长 波 红 外 )，395 
k-neighbors (Kk 近 邻 )，165 
Kroneker delta (deltaggj f), 121, 122 M 
DT distance (距离 变换 距离 ) 165 
Kuhn-Tucker conditions ( 库 恩 - 塔 克 条 件 )，352 magnetic resonance imaging (核磁 共振 图 像 )，39 
Mahalanobis distance ( 马 哈 拉 诺 比 斯 距离 )，341, 349, 
L 357 
major axis (E44), 223 
label image (标号 图 )，181 MAP (最 大 后 验 概率 )，121, 198, 201 
label memory (标号 存储 器 )，186 MAP estimation (最 大 后 验 概率 估计 )，407 


labeling (标号 ) ，264 maps, Kohonen (Kohonen 了 映射 )，259 
labels (标号 )， 263 ! margin ( 类 间距 ) ， 349 
Lagrange multiplier ( 拉 格 朗 日 乘 子 )，224 Markov (马尔 科 夫 模型 )，201 


language (IF), 371 . ' 
Markov chain (马尔 科 夫 链 )，20 
Laplace’s equation ( 拉 普 拉 斯 等 式 )，120, 236 Markov model (RH) 20 
Laplacian ( 拉 普 拉 斯 算 子 )，82 Markov model, hidden ( 隐 马 尔 科 夫 模型 )，22 
Laplacian of Gaussian ( 拉 普 拉 斯 高 斯 )，88 Markov random field (马尔 科 夫 随机 场 )，64, 291, 381 


learni 学 习 )， i i 
learning Nd —- 5 maximum likelihood (最 大 似 然 )，327 
earning shape (形状 学 习 )，239 mean curvature (平均 曲率 )，61 


1 - - AX f d — Fer Hi 
eave-one-out approach (交叉 检验 〈 留 -检验 法 ))，399 mean field approximation ( 均 质 场 近 似 )，116 


left icl 心 , 
eft ventricle (Zc bz) 256 . measurement system (度量 系统 )，49 
Legendre polynomial (#hikis# IX), 236 medial axis (4h), 53, 232 


level 1 
evel set (水 平 集 )，200, 202 median filter (Hiag), 151 
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Mercer's conditions (Mercera&ft ), 353 

metric (JB), 219,358 

metric function (距离 国 数 ) 200 

microscopy, epi-fluorescence (外 荧光 显微镜 ) 384 

minimax rule (最 小 最 大 规则 )，342 

minimization (最 小 化 )，15 

minimum description length (最 小 描述 长 度 )，321 

minimum spanning tree (最 小 生成 树 }，360 

minimum-squared-error (最 小 平方 误差 )，239 

MMSE (最 小 垂直 距离 )，204 : | 

model (模型 )，304 

model-based (基于 模型 的 )，405 

modeling edges (模型 边缘 )，105 

molecules, tubular (管状 分 子 )，384 

moments (#2), 61,224,230 

moments, central (4.0.44), 229 

morphological filtering (数学 形态 学 滤波 器 )，179 

morphological sampling (数学 形态 学 采样 )，162 

morphological shape decomposition (数学 形态 学 分 解 )， 
173 

morphological skeleton (数学 形态 学 骨架 )，171 

morphology (数学 形态 学 ) 144,408, 409 

motion (运动 )，322, 386 

motion analysis (运动 分 析 )，115, 250 

motion segmentation (运动 分 割 )，210, 250 

MRI (核磁 共振 图 像 )，39, 383 

MSE estimate (最 小 平方 误差 估计 )，69 

multiple light sources (多 光源 )，384 

multisensor fusion (多 传感器 融合 )，405 

multispectral (多 光谱 )，382 

multispectral ATR (多 谱 自 动 目标 识别 )，406 

multispectral matching (多 谱 匹 配 )，406 

multivariate Gaussian ( 多 元 高 斯 分 布 )，79 

multivariate pdf ( 多 元 概率 密度 函数 )，332 

multiview range data (多 视点 深度 图 )，211 l 

MWIR (中 波 红外 )，395 


N 


nearest feature line (最 近 特征 线 )，324 
nearest neighbor measure (最 近邻 度量 )，358 
neighborhood ( 邻 域 )}，53 

neighboring state ( 邻 域 状态 ) 24 

neural network (神经 元 网 络 )，137, 403 
neuron (神经 元 )，137 

Newton-Raphson (牛顿 - 拉 弗 森 方法 )，17 
Neyman-Pearson (Neyman-Pearson 方 法 )，401 
nodes ( 结 点 )，290, 291, 305 

noise (噪声 )，49 


noise estimation (噪声 估计 )，63, 257 

noise sensitivity (噪声 敏感 度 )，68 

noise, counting (噪声 统计 )，204 

noise, Gaussian (高 斯 噪声 )，204 

noise, non-Gaussian ( 非 高 斯 噪声 )，204 
noise, Poisson ( 泊 松 噪声 ) 204 

nonlinear relaxation ( 非 线 性 松弛 法 )，267 
nonmaximum suppression ( 非 最 大 值 抑制 )、97 
nonterminal symbol ( 非 终 止 符 ), 369 

normal vector to an edge ( 边 的 法 线 向 量 ), .133 
normalization (规范 化 )，309 

normalized central moments (规范 化 中 心 矩 )，229 
NP-complete (NP 完 全 )，294 

NP-hard (NP 复 杂 度 指数 增长 的 问题 ) 294 
nuclear medicine ( 核 医 学 )，204, 383 


O 


objective function (目标 函数 )，15, 115, 126 
objects (物体 ) 263 

occlusions (遮挡 )，401 

opening ( 开 运 算 )，149 

optic flow (JE), 120, 250, 256, 313, 321, 386, 387 
optimal structuring elements (最 佳 结构 元 素 ) 180 
optimization (最 优化 ) 405 
orthogonal ( 正 交 )，11 

orthogonal functions (EX ERE), 11 

orthogonality ( 正 交 性 )，243 

orthonormal ( 正 交 归 一 )，93 

orthonormal transformation ( 正 交 归 一 变换 )，13 
outliers (外 点 )，204 

outside a curve (曲线 外 部 ) 197 

outward normal direction (外 指法 线 方向 )，197 
oversegmentation (过 ( 度 ) 分 割 )，205, 306 


P 


P wave (P 波 )，373 

panoramic camera (全 景 摄像 机 )，48 
panoramic stereo (全 景 体 视 )，48 
parabola, finding (抛物 线 检测 ) 283 
parameters, model (模型 参数 ) 25 
parametric transformation (参数 变换 )，275 
partial differential equation ( 偏 微分 方程 )，131 
parts manufacturing (有 零 部 件 制 造 )，293 
parts, overlapping (BSE), 384 

path (R), 24,291 

pattern classifier ( 模式 分 类 ) 304 

pattern recognition (模式 识别 )，304 

PC board (PC 板 )，149 
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PCA ( 主 分 最 分 析 ， 主 成 分 分 析 )，301 

PDE ( 偏 微分 方程 )，132 

peak, finding (峰值 检测 )，285 

perimeter (HK), 225 

perspective (透视 投影 ) 62 

photometric stereo (光度 立体 视觉 )，245 

piecewise-constant (分 段 常数 )，119,120,135 

piecewise-linear (分 段 线性 )，135 

piecewise-linear fitting (分 段 线性 拟 合 ) 224 

piecewise-planar (分 段 平面 )，120 

pixels (像素 )，38 

planar approximations (平面 近似 )，120 

plane, fitting 《平面 拟 合 )，70 

planning (规划 )，322, 383 

polarization (偏振 )，49 

polyhedron (多 面体 )，292, 295 

polynomials (多 项 式 }，39, 202 

pose (位 姿 )，48, 62 

positive definite (正定 )，13 

power spectrum (功率 谱 )，61 

predicate (谓词 )，306 

prime factor ( 质 元 素 )，159 

principal axis (主轴 )，219, 227 

principal component ( 主 分 量 )，214, 220 

principal component analysis (EA HOM, 主 成 分 分 析 )， 
301 

principal curvatures (+ #y44), 60 

prior probabilities ( 先 验 概 率 ) 396 

probabilistic ( 概率 ) 40 

probability distribution (概率 分 布 )，9 

probability of error (错误 概率 )，340 

probability, prior ( 先 验 概率 ) ，329 

probability, transition (转移 概率 ) 22 

production (产生 式 )，370 

projection (投影 )，12, 75, 76, 220 

projective invariants (投影 不 变性 )，322 

pseudo-inverse ( 伪 逆 )，239 

puns, bad (双关 语 )，383 

pushdown stack (下 压 堆 栈 )，186 

pyramid , (金字 塔 }，85,402 


Q 


quad tree (四 叉 树 )，86 

quadratic (二 次 函数 )，202 

quadratic classifier (二 阶 分 类 器 )，340 
quadratic form (二 次 型 )，13 

quadratic variation (二 阶 变 分 )，83 
quadric (二 次 ( 隐 式 ) 函 数 ) 39,202,234 


quality, segmentation (分 割 质量 )，205 
quantization (量化 ) 46 

quantization error (量化 误差 )，47 
quantized (量化 的 )，42 


radar (雷达 )，386 

radial basis function ( 径 向 基 函 数 )，353 
radiometric (辐射 度量 的 )，63, 257 

radius of a convolution kernel ( 卷 积 核 半 径 )，71 
ramp edge (3452), 76 

range (FER), 39,47 

range image segmentation (深度 图 像 分 割 )，211, 215 
range images (深度 图 像 )，201, 267 

range images, merging of (深度 图 像 的 拼合 )，204 
range images, registration of (深度 图 像 对 准 )，204 
raster scanning (光栅 扫描 )，43 

receiver operating characteristic ( 受 试 者 操作 特性 )，397 
recognition (识别 )，393 

recognizer (识别 器 )，371 

recurrent network (递归 网 络 )，137 

recursive region growing ( 递 推 区 域 生长 )，186 
reflection (反射 )，226 

reflection of a set (反对 称 集 }，146 

reflectivity (反射 率 )，245 

region adjacency graph (区 域 邻 接 图 )，292 

region alignment (区 域 对 齐 )，141 

region growing (区 域 生长 )，182, 322, 402 
registration (对 准 )，204 

regular expression (正则 表达 式 )，376 

relabeling ( 重 标号 ) 167 

relational representations (关系 表示 )，42 
relaxation (松弛 )，107 

relaxation labeling (松弛 标号 )，266, 305, 313, 321 
restoration (复原 )，108 

reverse engineering (逆向 工程 )，384 

ridge seeking (HIR), 63 

ridges (Æ), 52 

roads, finding in images (在 图 像 中 检测 道路 )，386 
ROC (接收 器 操作 特征 ) 397 

roof edge (屋顶 型 边缘 )，76 

rotation (旋转 )，217, 218 

rotation, correction for (旋转 校正 )，218 


S 


salient (特征 )，196 
salient group 〈 特 征集 )，210 
sample mean (采样 均值 )，333, 334 
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sample variance (采样 方差 )，334 

sampled (采样 的 )，42 

sampling (采样 )，45 

sampling grid (采样 网 格 )，161 

sampling theorem (采样 定理 )，46, 161 
sampling time (采样 时 间 )，46 

SAR (合成 孔径 雷达 )，408 

satellite images (卫星 图 像 )，407 

scale space (尺度 空间 )，85 

scale space causality (尺度 空间 因果 关系 . 87 
scaling (比例 缩放 )，358 

scanning (ufi), 43,192 

scatter matrix (散布 矩阵 )，70 

scene graph (场景 图 )，293 

secondary electrons (二 次 (发 射 ) 电 子 ) 247 
segmentation (4788), 115, 120, 181,322, 402 
segmentation of surfaces (表面 分 割 )，201 
segmentation, based on texture (基于 纹理 分 割 )，207 
segmentation, psychology of ( 按 心理 学 的 分 割 )，211 
segmentation, quality of (分 割 质量 ) 204 
segmentation, range (深度 图 分 割 )，388 
self-organizing (241), 368 

sensitivity (敏感 程度 ) 397 

sensor fusion (传感器 融合 ) 115, 405 
separability (可 分 性 )，350 

set of measure zero (度量 为 零 的 集 )，11 
shape from (从 … 分 析 形 状 )，243 

shape from focus (利用 聚焦 分 析 形 状 )，249 
shape from shading (从 影 调 分 析 )，244, 322 
shape from texture (基于 纹理 形状 分 析 ) 249 
sharpness (锐利 度 )，41 

shear ( 剪 切 ) 218 

sigmoid (S 形 函数 ) 137 

signal-to-clutter (信和 号 与 杂 物 ) 402 

signature ($a), 400 

silhouettes (#888), 243,259, 407 

similarity transformations (相似 变换 )，217 
simple points (简单 点 )，180 

simplicial models: ( 纯 形 模型 ) 261 

simply connected ( 单 连通 )，159 

simulated annealing (模拟 退火 )，19, 115, 122, 198 
singular-valued decomposition ( 3$ 9l 4) Br). 252 
skeleton (#22), 171 

slope-intercept ( 斜率 - 截 距 形式 )，275 
smoothing (723), 386 

snakes ( 蛇 形 线 )，197 

Sobel (Sobel 边 缘 检 测算 子 )，78, 94 

Sobel operator (Sobel 算 子 )，68 


sonar (太阳 能 )，386 

space-invariant (空间 不 变 )，50 

spatial (空域 )，49 

spatial derivatives (空域 导数 ) 67 

spatial frequency ( 空域 频率 )，40, 61 

spatial vision (空域 视觉 )，106 

specificity (确切 程度 '( 非 目标 正确 判别 率 ))，397 

spectral bands ( 谱 带 )，394 | 

spectral-based (基于 光谱 的 )，404 

specular (镜面 反射 )，49, 243, 260 

specular reflectors (镜面 反射 )，49, 384 

speech recognition (语音 识别 )，26 EE 

speed of a curve (曲线 上 点 坐标 随 参 数 的 速率 变化 )， 
196 

sphere ( 球 )，202 

spherical harmonics (球形 谐 波 )，236 

springs and templates (( 脸 的 ) 弹 性 模板 )，308 

squared residual ( 残 差 平方 )， 

stability, of views (视图 的 稳定 性 )，385 

stable state (稳定 状态 )，385 

state sequence (状态 序列 )，23 vt 

statistical mechanics (统计 力学 )，115 

statistical pattern classification (统计 模式 识别 )，305 

step〈 阶 跃 (边缘 )) ，76 

stereo 〈 立 体 视 觉 )，64, 120, 322 

stereo matching ( 体 视 匹配 )，324 

stereo, patch-based (基于 片 的 立体 视觉 ) 142 

stereopsis (立体 视觉 )，47, 286, 300, 322, 386 

stick growing (线段 增长 ) 106 

stochastic grammars (BHL? ), 370 

stochastic network (随机 网 络 )，381 

straight line, fitting of (直线 拟 合 )，223 

striate cortex (条 纹 皮 层 )，105, 260 

structure from motion (从 运动 分 析 结 构 )，64, 260 

structured illumination (结构 光照 明 )，48, 248 

structured lighting (结构 光 )，48 

sum of squared differences (平方 益 总 和 )，286 

superquadric ( 超 二 次 曲线 )，237,238 

supervised learning (有 监督 学 习 )，328 

support vector machine (支持 向 量 机 )，349 - 

surface geometry (表面 几何 )，211 

surface harmonic (表面 的 谐 波 表示 )，236 

surface normal (表面 法 线 )，244, 247 

surfaces, quadric (二 次 曲线 )，234 

SWIR (短波 红外 )，395 

symmetry ( 对称 )，226, 243 


”symmetry distance ( 对 称 距 离 )，227 


symmetry, mirror (镜面 对 称 ) 226 
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symmetry, rotational ( 旋转 对 称 ) 226 
sync (同步 脉冲 )，45 
syntactic pattern recognition (句法 模式 识别 )，369 


T 


target detection ( 目标 控制 )，395 

template matching (模板 匹配 )，179, 299, 313, 405 

templates (模板 ) 404 

temporal templates (Ht IH] Hitz), 256 

terminal symbol (终止 符 )，369 

tessellation (棋盘 形 布局 )，57 

test set (测试 集 )，399 

texture (纹理 )，61, 88, 261, 379 

texture discrimination (纹理 分 类 )，63 . 

texture segmentation (纹理 分 割 )，207, 212 

thermal imaging ( 热 成 像 )，383 

thermophysical invariants ( 热 物 理 不 变量 )，389 

thinness (细微 度 )，225 

thinning (4ft), 97,171 

threshold (f&[&), 182 

thresholding (ig[ÉÍEL), 184 

tomography ( 层 析 X 射 线 摄影 机 )，180 

tracking (跟踪 )，250， 269, 401 

tracking of molecules (分 子 跟 踪 )，384 

tracking roads (道路 跟踪 )，407 

tracking using deformable templates (利用 变形 模板 进行 
跟踪 )，233 

training set (训练 集 ) 304, 326, 328, 348, 399 

transform, (K-L@#a), K-L 219 

transformations, orthogonal ( 正 交 变 换 )，216 

transition matrix (转移 矩阵 )，22 

transition probability (转移 概率 )，22 

translation (位 移 )，145 

translation of a set ( (结构 ) 集 的 位 移 )，146 

tree ( 树 )，291 

tree annealing ( 树 退 火 算法 )，184 

triangle similarity (三 角形 相似 度 ) 226 

true error rate (真实 错误 率 )，398 

true negative (正确 辨识 非 目 标 ( 真 阴 ) )，396 

true positive (正确 辨识 目标 ( 真 阳 ) ) 396 

true positive fraction ( 目标 正确 辨识 率 ( 真 阳 率 ))，397 

tubular molecules (管状 分 子 ) 384 

Turing machine (图 灵机 )，370 


U 


umbra (48%), 152 
uncertainty propagation (不 确定 性 传播 ) 325 
undersegmentation (RZ H|), 205 


uniformity ( —kfE), 213 

univariate pdf (一 元 概率 密度 函数 ) 331 

unsupervised learning ( 非 监督 学 习 (无 监督 学 习 ) ) ， 
328 


V 


vanishing points ( 消 隐 点 )，266, 286 

variable conductance diffusion (传导 率 可 变 的 扩散 )， 
131 

variance, estimation of (方差 估计 )，334 

VCD ( 变 传导 系数 扩散 )，131, 136 

vector representations (向 量 表示 )，73 

vector space (向 量 空间 )，12 

vector, infinite-dimensional (无 限 维 向 量 )，11 

vehicle tracking (车 辆 跟踪 )，389 

ventricle (心室 )，373 

ventricle, left ( 左 心室 )，383 

Vertex, multihedral (多 面体 相交 顶点 )，243 

Vertex, trihedral (三 面相 交 顶 点 )，243 

vertical blanking ( 场 回 扫 )，45 

vertical resolution (垂直 分 辨 率 )，46 

vertices (THA), 290 

vidicons (摄像 管 )，42 

view likelihood (视图 可 能 性 )，385 

view stability (视图 稳定 性 )，385 

viewing region (视角 划分 )，296 

viewpoint space partition (视点 空间 划分 )，296 

visual potential ( 可 能 视图 )，296 

Viterbi algorithm (维特 比 算法 ) 24, 408 

Voronoi diagram (Voronoi 图 )，155, 382 

VSP (视点 空间 划分 )，296 


W 


Waldo, finding (Waldo 检 和 油 )，387 
watershed (分 水 岭 )，182, 210, 211 
wavefront propagation ( 波 前 传播 )，287 
wavelet (小 波 )，101, 142, 143, 400 
weak membrane ( 弱 隔膜 }，129 
whitening (白化 )，219 

within-class scatter (类 内 散布 ) 348 
Wold features (we SARE), 213 


Z 

à 
Zakai equation (Zakai7j £&), 402 
zero crossings (XX), 88,98 
zero set ($4), 39 


zoom (变焦 )，218 


